Мы ищем уверенного инженера данных в подгруппу MLOps команды "Эффективность Рекомендаций". Мы отвечаем за pipeline сбора данных, обучение, валидацию и мониторинг моделей ранжирования для рекомендательных сервисов.
Наша задача сделать этот процесс максимально эффективным, предсказуемым и стабильным.
Наш стек:
- Python, PySpark, Airflow, Grafana, Clickhouse.
Вам предстоит:
- Создавать стабильные отказоустойчивые и масштабируемые системы обработки данных.
- Писать регрессионные тесты (в разработке используем TDD).
- Создавать инструменты мониторинга.
- Настраивать процессы CI/CD.
- Проектировать архитектуру систем обработки данных.
- Создавать и валидировать прототипы решений.
- Работать над продуктизацией моделей catboost и нейросетевых моделей.
Мы ожидаем:
- Продвинутое владение Python и понимание основ ООП.
- Хорошее знание PySpark (как Dataframe API так и Spark SQL API).
- Хорошее знание основ ML, ML-процессов и основных метрик качества ML-моделей.
- Опыт в оптимизации производительности запросов и ETL процессов.
- Уверенный технический бэкграунд (вы представляете себе, что такое контейнеры, k8s, kafka и т. д).
Будет плюсом:
- Опыт разработки/продуктизации нейросетевых моделей.
- Опыт работы с Airflow.
- Опыт написания микросервисов на языке Golang.
Мы предлагаем:
- Динамичный и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе лучший продукт на рынке e-commerce.
- Свободу действий в принятии решений.
- Достойный уровень заработной платы.
- Профессиональную команду, которой мы гордимся.
- Возможность развиваться вместе с нашим бизнесом.