Сбор, очистка и подготовка данных из различных источников для дальнейшего анализа.
Проведение первичного анализа данных: выявление закономерностей и аномалий, создание визуализаций.
Разработка и внедрение моделей машинного обучения (включая регрессию, классификацию и кластеризацию), особый фокус на разработку моделей, связанных с временными рядами.
Оценка качества моделей, настройка гиперпараметров и проведение кросс-валидации.
Участие в интеграции моделей в бизнес-процессы компании.
Подготовка аналитических отчетов.
Эффективное взаимодействие с представителями бизнеса и техническими командами.
Улучшение текущих подходов и изучение новых инструментов и алгоритмов.
Знание современных алгоритмов машинного обучения и статистического анализа данных, опыт работы с временными рядами, работа с LLM для создания продуктов и получения инсайтов;
Отличное знание Python (библиотеки: Pandas, NumPy, Scikit-Learn, PyTorch/TensorFlow, etc.);
Опыт работы с Spark, Pyspark, SQL, работа с S3;
Опыт работы с жизненными циклами разработки вычислительной и программной инфраструктуры;
Опыт разработки продуктового ML решения, начиная от анализа данных и заканчивая созданием прототипа: понимание архитектуры ML проектов, настройка пайплайнов данных, умение обернуть модель в базовый backend (FastAPI/Hug/другое), базовые навыки DevOps (умение работать с Docker, KubeFlow)
Высокие навыки коммуникации и решения проблем, стремление к обучению
Уровень английского языка - Intermediate