Наш департамент создаёт рекламные продукты и инструменты для бизнеса. Это myTarget, рекламный кабинет ВКонтакте и платформа VK Реклама. Наши разработки также интегрированы в другие продукты VK: Одноклассники, Портал и Почту Mail. Всё это открывает бизнесу доступ к 95% мобильной аудитории рунета. У нас в команде минимум бюрократии и максимум возможностей влиять на продукт — воплощение фич от идеи до релиза может занимать всего пару недель.
Ищем Дата-инженера, который будет участвовать в создании ML-инструментов. Предстоит разрабатывать и поддерживать код на Scala/Spark (UDF/UDAF, Spark ML Transformers, etc.) и Python (платформа ML/ETL). Также помогать команде следить за качеством генерируемых данных. У нас вы будете работать с данными популярных соцсетей (ВК, ОК, Дзен) и других проектов экосистемы VK. Также надеемся, что вам понравится наш кластер Hadoop на примерно 100 петабайт.
Задачи
- Проектировать, разрабатывать и поддерживать инструменты для создания надёжных пайплайнов обработки данных;
- Участвовать в развитии системы для создания и использования ML-моделей;
- Исследовать и интегрировать в продукт новые источники данных;
- Создавать витрины признаков для ML-моделей.
Требования
- Знание алгоритмов и структур данных;
- Умение писать качественный, поддерживаемый код на Scala, Python, SQL;
- Опыт использования Hadoop, знание механизмов распределённого хранения и обработки данных (HDFS, Spark, Hive);
- Знакомство с Git, Linux, Docker;
- Опыт работы с терминалом по SSH.
Будет плюсом
- Умение использовать Luigi, Airflow, Kafka;
- Опыт написания Spark UDF/UDAF на Catalyst API и трансформеров spark.ml;
- Знание Java и нюансов JVM;
- Понимание классических ML-моделей, задач и методов DS.
Мы предлагаем
Формат работы
Уровень
График работы
VK Реклама
Наша команда развивает платформу VK Реклама, объединяющую все крупнейшие в России и СНГ социальные сети и сервисы с общим охватом более 140 млн человек.