Data Engineer, Москва
Команда DWH агрегирует в себе накопленную экспертизу и лучшие практики холдинга в области построения хранилищ данных и аналитических приложений. Мы превращаем информационный хаос в четко организованную систему, которая позволяет собирать, обрабатывать и анализировать любые объемы данных. В нашей команде убеждены, что системы хранилищ данных должны максимально помогать людям — автоматизировать рутинные задачи, собирать и анализировать сырые данные, подготавливать почву для удобного и аргументированного принятия решений.
Мы ищем BigData инженера, готового принять активное участие в разработке одного из крупнейших хранилищ группы компании: десятки петабайт данных, количество узлов кластера более 400, ежедневный прирост информации составляет десятки тб. В хранилище собрана информация большинства ключевых бизнес-юнитов компании, которая описывает поведение пользователей рунета: события посещений сайтов, клики\показы рекламы, использование мобильных приложений, профили соц.сетей пользователя, действия пользователей в соц.сетях и их публичные сообщения и т.д. Все это позволяет составить достаточно полную картину поведения пользователя во всех сервисах mail.ru и строить на полученных данных сложные математические модели.
Наш стек технологий включает, но не ограничивается:
- Database Systems: MySQL, Tarantool, ClickHouse.
- Hadoop: Hive, Spark, MapReduce, Kafka.
- DataFlow / ETL: Luigi, Airflow.
- Business Inteligence: Tableau, Redash, SuperSet.
- Continuous Integration: Jenkins, GitLab CI.
- IssueTracking / KnwoledgeBase : Jira, Confluence.
- Monitoring: Sentry, Graphite, Grafana, Prometheus, Telegraf.
Задачи
- Участие в роли BigData Engineer в проекте построения системы обработки и хранения разнородной информации из различных бизнес-юнитов компании на базе Hadoop (BigData DWH);
- Исследование большого объема необработанных данных, накопленных в компании;
- Построение и оптимизация нетривиальных ETL процессов обработки больших данных, участие в построении процессов потребления данных на всех этапах, их трансформации от появления информации в конкретном Бизнес Юните до монетизации полученных знаний;
- Взаимодействие с командой Data Scientist и совместная реализация стабильного расчета математический моделей;
- Поддержка и модификация созданного решения, ответственность за доступность сервиса для внутренних потребителей и корректность предоставляемых для принятия решений данных.
Требования
- Не менее года релевантного опыта работы;
- Опыт работы с большими объемами данных, понимание стека технологий hadoop, глубокое знание Spark или Hive (плюсом будет знание Java, Scala в контексте обработки больших данных);
- Опыт организации ETL процессов обработки данных (плюсом будет знание code-driven ETL Luigi, Airflow);
- Знание классических алгоритмов и структур данных (плюсом будет опыт разработки на python);
- Знания в области теории обработки и хранения информации;
- Ссылки на публичные репозитории, статьи с примерами работы приветствуются.
Мы предлагаем
Формат работы
Уровень
График работы

Рекламные технологии и развитие СМБ
Направление объединяет рекламные продукты и инструменты для бизнеса — VK Реклама, ОРД, MyTracker, которые упрощают начало работы и ежедневное взаимодействие с рекламными кампаниями для любых категорий пользователей от начинающих предпринимателей до профессионалов маркетинга.