Мы приглашаем в нашу команду эксперта на позицию лидера команды Надёжности, который станет опорой для команды и поможет нам выстроить и внедрить единые подходы к обеспечению надёжности продуктов, сервисов и систем в рамках направления развития внутренней инфраструктуры VK. Мы активно развиваемся и растём, работаем над улучшением процессов, повышением надёжности и качества наших сервисов. Наши активности делятся на два основных направления: развитие централизованных сервисов разработки и проекты гибкой инфраструктуры по миграции в облако. А также мы формируем команду и запускаем проекты по надёжности — повышение SLO внутренних сервисов и развитие SRE-практик.
Задачи
Внедрение SLO для централизованных сервисов разработки (GitLab, TeamCity, Nexus, Allure и т. д.)
Внедрение SLO для корпоративных систем, внутренней инфраструктуры и продуктов
Выстраивание процессов управления надёжностью для всей внутренней инфраструктуры в соответствии с общей методологией, включая подходы:
- к определению классов критичности систем и сервисов на основе влияния их простоя на бизнес-процессы;
- к оценке экономически обоснованных значений RTO и RPO;
- к формированию системы продуктовых метрик в части обеспечения надёжности;
- к выстраиванию процессов управления уровнем сервиса на основе SLA/SLO/SLI;
- к обеспечению непрерывности и доступности критичных систем и сервисов;
- к управлению критическими событиями в прод-среде
Требования
- Опыт работы в ИТ от 10 лет
- Опыт от 3 лет в разработке, автоматизации тестирования ПО и (или) SRE
- Опыт работы на позиции лидера практики SRE в крупных технологических компаниях
- Наличие управленческого опыта (управление командой не менее 5 человек)
- Отличные коммуникационные навыки
- Опыт разработки SLA/SLI/SLO и знание принципов их формирования
- Опыт внедрения практик и инструментов SRE и DevOps
- Опыт в работе с распределённой инфраструктурой, микросервисной архитектурой
- Знание принципов работы облачных сервисов и современных средств мониторинга и автоматизации управления инфраструктурой
- Опыт организации построения или управления инфраструктурой отказоустойчивых систем, работающих в режиме 24x7x365 и требующих минимального участия человека
- Знание принципов и методов обеспечения качества и надёжности ИТ-сервисов
- Практическое знание нескольких скриптовых языков
Будет плюсом
- Практический опыт внедрения практик и инструментов Capacity Management, Availability Management, Business Continuity Management
- Опыт энтерпрайз-разработки Java, Go
Мы предлагаем
Формат работы
Уровень
График работы

VK
VK — это более 200 технологичных проектов, больше 15 000 сотрудников и безграничные возможности проявить себя. Мы делаем современные и быстрые интернет-сервисы, доступные каждому.