Мы — группа надёжности Поиска. Наша задача — делать поисковые сервисы устойчивыми к сбоям, предсказуемыми по latency и проще в эксплуатации. Поиск — критичный пользовательский сервис: любые деградации сразу видны миллионам пользователей и влияют на продуктовые метрики. Поэтому мы строим и развиваем вспомогательные системы и инфраструктурные компоненты, которые помогают командам Поиска быстрее находить причины проблем, безопаснее выкатывать изменения и увереннее жить в проде.
Мы работаем на стыке разработки и эксплуатации: пишем production-код, внедряем практики надёжности, улучшаем наблюдаемость, автоматизируем реакции на инциденты и создаём сервисы, которые повышают устойчивость всей поисковой платформы. В стеке — C++, Go, Python, Bash, а также инструменты и технологии вокруг инфраструктуры, мониторинга, деплоя, конфигураций и автоматизации.
Сейчас мы ищем инженера уровня Middle-Senior, которому интересно не только писать код, но и отвечать за то, как системы ведут себя в проде: от метрик и алертов до деградаций, откатов и постмортемов.
Задачи
- Разрабатывать вспомогательные сервисы надёжности для Поиска: системы диагностики, health-check/guardrail-компоненты, автоматические проверки, инструменты для расследования инцидентов и анализа деградаций
- Улучшать наблюдаемость: метрики, логи, трассировки, SLI/SLO, дашборды, алертинг, снижение шума и повышение полезности сигналов
- Автоматизировать эксплуатацию: деплой/роллауты, безопасные выкладки, откаты, canary/эксперименты, runbooks, автоматические действия при типовых авариях
- Работать с инфраструктурой: конфигурации, сервис-дискавери, балансировка, лимиты/квоты, управление ресурсами, устойчивость к отказам ДЦ
- Разбирать инциденты и деградации: участие в on-call/дежурствах, проведение расследований, формирование и реализация action items, улучшение процессов
- Взаимодействовать с командами Поиска: помогать внедрять практики надёжности, согласовывать требования, находить узкие места и доводить изменения до продакшена
Требования
- Уверенный опыт backend-разработки на уровне Middle-Senior
- Хорошее знание C++ и готовность писать и поддерживать production-код
- Практический опыт эксплуатации сервисов в проде: понимание, что такое latency, tail latency, отказоустойчивость, деградации, capacity, инциденты, откаты
- Навыки DevOps/SRE-подхода: мониторинг, алертинг, диагностика, автоматизация, инфраструктурное мышление
- Умение разбираться в большой кодовой базе и сложной распределённой системе, находить причины проблем, предлагать и внедрять улучшения
- Коммуникация и ответственность: умение договариваться со смежными командами и доводить инициативы до результата
Будет плюсом
- Опыт работы с highload/low-latency системами и распределёнными сервисами
- Опыт построения observability (метрики/логи/трейсы), настройки алертинга и дашбордов (Grafana/VictoriaMetrics/Prometheus или аналоги)
- Опыт с контейнеризацией и оркестрацией (Docker/Kubernetes или внутренние платформы), CI/CD
- Опыт проведения postmortem, внедрения SLO/ошибочного бюджета, практик безопасных релизов (canary, gradual rollout)
- Знание Python/Go/Java для автоматизации и инструментов (не обязательно)
- Опыт работы с системами хранения/очередями/кешами и понимание их отказовых режимов
Мы предлагаем
Формат работы
Уровень
График работы
VK
VK — это более 200 технологичных проектов, больше 15 000 сотрудников и безграничные возможности проявить себя. Мы делаем современные и быстрые интернет-сервисы, доступные каждому.