Аналитик данных, Москва
Мы создаём самую большую рекомендательную систему в России, выпускаем приложения под Android и iOS, разрабатываем редактор видео и помогаем интересным блогерам найти новую аудиторию, а пользователям — интересные публикации. За этим стоят сложные алгоритмы, сотни тестов и сервис, который обрабатывает 150 тысяч запросов в секунду.
Наша команда управляет контентом Дзена, ВКонтакте и Одноклассников. Для этого у нас более 80 ML-моделей в концепции Human in the loop. Также используем ChatGPT и три краудсорсинговые платформы разметки данных.
Задачи
- Выстраивать в Airflow оркестрацию потоков данных на разметку;
- исследовать и визуализировать метрики контроля за пайплайнами;
- находить точки роста для платформы разметки данных;
- собирать, анализировать и интерпретировать информацию из разных источников с использованием математических моделей;
- управлять «толпой» разметчиков через метрики, пайплайны и механики контроля качества;
- развивать систему разметки с помощью LLM — ChatGPT и её аналогов.
Стек технологий: SQL для обработки больших данных, Python для работы в Airflow и расчёта метрик агентов разметки (ML-моделей, ChatGPT, Яндекс Толоки и так далее), Git — для CI/CD кода и пайпланов, BI-системы — для визуализации метрик.
Требования
- Опыт работы в Airflow и BI-решениях — Datalens, Superset, Power BI или другом;
- Высшее техническое или математическое образование;
- Владение Python для анализа данных — дружите с Pandas, Numpy и Catboost;
- Понимание метрики ML-моделей классификации;
- Понимание тервер и матстат для оценки метрики, которую невозможно посчитать точно;
- Стремление расширить свою экспертизу и строить ML-сервисы e2e — от понимания требуемых данных до мониторинга обученных моделей в проде.
Будет плюсом
- Опыт работы с Superset;
- Опыт использования краудсорсинговых платформ, например, Толоки.
Мы предлагаем
Формат работы
Уровень
График работы
Департамент AI
Мы развиваем технологии искусственного интеллекта для ключевых продуктов VK, создаём систему рекомендаций и поиска контента на наших платформах.