Необходим технический специалист, способный не только запускать нагрузочные проверки, но и активно развивать инфраструктуру нагрузочного тестирования, оптимизировать использование ресурсов и участвовать в разработке автоматизированных тестов на Python.
Цель - обеспечение надежности, масштабируемости и предсказуемости релизов в условиях растущей нагрузки и увеличения числа критичных компонентов системы.
Задачи
- Низкоуровневая диагностика производительности систем
Проведение системной диагностики Linux на уровне kernel / memory / networking / system calls, выявление деградаций CPU, IO и latency с использованием инструментов perf / strace / tcpdump / iostat.
- Анализ и локализация bottleneck'ов
Выявление узких мест на уровне application / database / storage / network, построение профилей производительности по latency / throughput / saturation, проведение root cause analysis инцидентов и деградаций.
- Observability и distributed tracing
Анализ метрик, логов и трассировок распределённых систем, корреляция событий и выявление деградаций с использованием Prometheus / Grafana / OpenTelemetry / Jaeger.
- Оптимизация производительности и масштабируемости
Настройка параметров системы и проведение сравнительных тестов конфигураций с целью оптимизации resource utilization / latency / throughput / stability.
- Работа с highload и распределёнными системами
Поддержка и развитие инфраструктуры распределённых систем с использованием horizontal scaling / load balancing / caching / high availability.
- Incident response и troubleshooting
Диагностика production-инцидентов и деградаций производительности, проведение incident analysis / root cause analysis / post-mortem / preventive improvements.
Требования
- Linux
Глубокое понимание архитектуры Linux: kernel / scheduler / memory management / networking stack, практический опыт диагностики и оптимизации production-систем под нагрузкой.
- Low-level диагностика
Уверенный опыт анализа производительности и поведения системы с использованием инструментов perf / strace / tcpdump / vmstat, понимание CPU, memory и IO profiling.
- Performance analysis methodologies
Практическое применение методологий анализа производительности: USE / RED / Golden Signals / capacity planning.
- Observability / Monitoring / Tracing
Опыт работы с системами мониторинга и трассировки: Prometheus / Grafana / OpenTelemetry / ELK, навыки анализа метрик, логов и трассировок.
- Highload systems
Понимание архитектуры и поведения систем под нагрузкой: horizontal scaling / load balancing / replication / fault tolerance, опыт оптимизации производительности и масштабируемости.
- Networking
Глубокое понимание сетевого взаимодействия: TCP/IP / HTTP / DNS / load balancing, опыт диагностики сетевых задержек и проблем производительности.
- Automation
Навыки автоматизации диагностики и инфраструктуры с использованием Bash / Python / Ansible / CI/CD.
Мы предлагаем
Формат работы
Уровень
График работы
Бизнес-приложения VK Tech
Продукты для автоматизации HR, финансовых и операционных задач.