Технології
Ми шукаємо Data Scientist з сильним інженерним мисленням, який створить базу даних для підвищення ефективності портфеля програмного забезпечення. Ця роль зосереджена на вилученні, структуруванні та аналізі даних зі сховищ коду, систем управління артефактами та платформ спостережливості. Ви працюватимете на перетині інженерії даних, архітектури програмного забезпечення та штучного інтелекту, використовуючи сучасні підходи, такі як моделювання на основі графів та GenAI, для відображення складних залежностей та покращення видимості у масштабній екосистемі продуктів та платформних сервісів.
Завдання
- Витягувати та аналізувати дані зі сховищ коду (GitHub, GitLab) для побудови метрик програмного забезпечення на основі даних
- Використовувати абстрактні синтаксичні дерева (AST) та методи статичного аналізу для розуміння структури коду, залежностей та патернів використання
- Розробляти та впроваджувати рішення на основі графових баз даних для моделювання складних взаємозв'язків між сервісами та платформами
- Розробляти та впроваджувати стандарти метаданих (наприклад, через Backstage/DevHub) для забезпечення узгодженості між системами
- Інтегрувати дані з платформ спостереження та телеметрії (Grafana, DataDog, Prometheus, Splunk) для відстеження впровадження та продуктивності
- Створювати алгоритми для розрахунку показників ефективності програмного забезпечення на основі визначених критеріїв
- Застосовувати методи AI/GenAI (наприклад, Graph RAG, векторні бази даних) для покращення пошуку даних, картографування залежностей та генерації інсайтів
Наші очікування
- Мінімум 5 років досвіду роботи з Python та робочі знання JavaScript
- Розуміння систем контролю версій (Git) та конвеєрів CI/CD
- Міцний фундамент в алгоритмах, структурах даних і теорії графів, включаючи концепції AST
- Досвід роботи з інженерією даних, включаючи роботу з великими кодовими базами в локальних і хмарних (AWS) середовищах
- Знання таких інструментів, як Artifactory, Prometheus та Splunk
- Знання концепцій AI/ML, зокрема GenAI, Graph RAG та векторних баз даних
- Здатність створювати чітку технічну документацію та працювати з незалежним, дослідницьким мисленням для вирішення проблем
- Вільне володіння польською мовою
- Проживання в Польщі є обов'язковим
Вакансія № 260325-UO42L
Sii ensures that all hiring decisions are made solely on the basis of qualifications and competence. We are committed to equal and fair treatment of all, regardless of legally protected characteristics. At Sii, we promote a diverse and inclusive work environment, in full compliance with applicable anti-discrimination laws.
Technologies & tools
We are looking for a Data Scientist with a strong engineering mindset to build the data foundation for software portfolio efficiency. This role focuses on extracting, structuring, and analysing data from code repositories, artifact management systems, and observability platforms. You will work at the intersection of data engineering, software architecture, and AI, leveraging modern approaches such as graph-based modelling and GenAI to map complex dependencies and improve visibility across a large-scale ecosystem of products and platform services.
Your tasks
- Extract and analyze data from code repositories (GitHub, GitLab) to build data-driven software metrics
- Use Abstract Syntax Trees (AST) and static analysis techniques to understand code structure, dependencies, and usage patterns
- Design and implement graph database solutions to model complex relationships across services and platforms
- Develop and enforce metadata standards (e.g., via Backstage/DevHub) to ensure consistency across systems
- Integrate data from observability and telemetry platforms (Grafana, DataDog, Prometheus, Splunk) to track adoption and performance
- Build algorithms to calculate software efficiency metrics based on defined criteria
- Apply AI/GenAI techniques (e.g., Graph RAG, vector databases) to enhance data retrieval, dependency mapping, and insights generation
Requirements
- Minimum 5 years of experience in Python and working knowledge of JavaScript
- Understanding of version control systems (Git) and CI/CD pipelines
- Strong foundation in algorithms, data structures, and graph theory, including AST concepts
- Background in data engineering, including working with large codebases in on-prem and cloud (AWS) environments
- Familiarity with tools such as Artifactory, Prometheus, and Splunk
- Knowledge of AI/ML concepts, particularly GenAI, Graph RAG, and vector databases
- Ability to produce clear technical documentation and operate with an independent, exploratory problem-solving mindset
- Fluent Polish required
- Residing in Poland required
Job no. 260325-UO42L
Sii ensures that all hiring decisions are made solely on the basis of qualifications and competence. We are committed to equal and fair treatment of all, regardless of legally protected characteristics. At Sii, we promote a diverse and inclusive work environment, in full compliance with applicable anti-discrimination laws.