Группа речевых технологий VK занимается разработкой и внедрением решений в области автоматического распознавания речи (ASR), синтеза речи (TTS), шумоподавления (denoise), устранения реверберации (dereverb) и голосового поиска (KWS). Наши технологии лежат в основе таких продуктов, как VK Мессенджер, VK Звонки, VK Teams, субтитры для VK Видео и многих других.
Наша работа охватывает полный цикл разработки: от создания и разметки специализированных датасетов до проектирования архитектур нейронных сетей, их обучения и интеграции в продакшен. Мы внимательно следим за научными публикациями, регулярно изучаем новые подходы и реализуем лучшие модели, находящиеся на переднем крае исследований в области речевых технологий.
Задачи
- Разрабатывать state-of-the-art модели автоматического распознавания речи (ASR)
- Вести полный цикл работ: подготовка и аугментация данных, проектирование архитектур, обучение крупных моделей на нашем GPU-кластере, деплой в production
- Постоянно читать научные статьи, отслеживать новейшие тренды и применять лучшие практики в ASR
- Работать над тем, чтобы наши решения оставались одними из лучших в отрасли
Требования
- Глубокие знания алгоритмов и структур данных
- Уверенные навыки в классическом Machine Learning и Deep Learning
- Практический опыт обучения нейросетей в PyTorch
Будет плюсом
- Опыт оптимизации инференса: квантизация, TensorRT/Triton, ONNX, CUDA Graphs
- Навыки обучения больших моделей с Mixed Precision и Distributed Data Parallel (DDP) в PyTorch
Мы предлагаем
Формат работы
Уровень
График работы

AI VK
Мы развиваем технологии искусственного интеллекта для ключевых продуктов VK, создаём систему рекомендаций и поиска контента на наших платформах.