Data Engineer в команду автоматизации ML-процессов, Москва
Мы разрабатываем специальные технические решения для автоматизации ML и оптимизации внутренних процессов работы ВКонтакте. Мы стремимся, чтобы наши сервисы предвосхищали ожидания пользователей и непрерывно улучшали UX.
Ищем специалиста, который поможет обеспечить технические решения всеми необходимыми для работы данными.
Задачи
• разрабатывать и внедрять пайплайны поставки и препроцессинга данных для работы триггерных правил и обучения ML-моделей;
• поддерживать и улучшать работу созданных решений в условиях непрерывного изменения данных;
• помогать в сборке витрин объектов для различных исследований, в том числе для feature engineering.
У нас интересно, потому что вы:
• сможете не только применить и прокачать свои навыки, но и узнать, как устроены внутренние процессы в разных командах;
• поработаете над true BigData ETL — в наших кластерах десятки петабайт различных данных;
• будете создавать и улучшать сервисы с месячной аудиторией более 100 млн пользователей.
Требования
• работали на аналогичной должности Data Engineer не менее 2 лет;
• отлично владеете Python (PySpark) и понимаете концепцию функционального программирования;
• уверенно разбираетесь в стеке Hadoop (HDFS, Yarn, Hive, Spark), работали с ним не менее года, включая опыт разработки ETL-процессов;
• неоднократно убеждались на практике, что ClickHouse не тормозит.
Будет плюсом
Вы работали с Apache Kafka.
Приглашаем специалиста, который сможет посещать офис в Москве или работать в гибридном режиме. Ждём ваших откликов. Удачи!
Мы предлагаем
Формат работы
Уровень
График работы

ВКонтакте
ВКонтакте — один из самых высоконагруженных проектов рунета. В сутки у нас бывает до 30 релизов и 125 миллиардов запросов к API. Всё это вытягивает небольшая команда разработчиков, где каждый — суперпрофессионал, который нашёл интересные для себя задачи.