InfraDev Meetup — это серия мероприятий, посвященных разработке и эксплуатации инфраструктурных платформ, от разработчиков инфраструктурных сервисов.
Мы предоставляем площадку для обмена опытом программистам, архитекторам, DevOps, SRE и всем, кто создаёт платформы и хочет развиваться в этой сфере.
Идея ускорить разработку с помощью AI не нова, но когда речь заходит про инфраструктурный сервис уровня Bare-Metal-as-a-Service, где цена ошибки в проде высокая, многие справедливо опасаются доверять агентам системные компоненты. Мы прошли этот путь от первых экспериментов до состояния, когда часть нашей кодовой базы пишется с участием LLM — и при этом мы сохраняем контроль над тем, что уезжает в прод. Ключ оказался не в доверии к LLM, а в структуре: архитектуре, спецификациях и тестах. В докладе расскажу, как у нас сместилось понимание того, что является исходным кодом, почему задача больше не «писать больше», а «писать меньше», и какие принципы инженерии оказались критичны пр работе «рука об руку» с агентами — от управления архитектурными слоями и спецификациями до организации Code Review и тестирования.
Распределённое обучение LLM на кластере из HGX —
это не просто «больше GPU». Это новый уровень сложности: Kubernetes
должен дружить с InfiniBand и GPU, стабильно работать с системой,
стартовать быстро большие контейнеры и правильно их шедулить.
В докладе расскажу про запуск нашего HPC, как мы в Avito
прошли этот путь при создании Aviflow: от размещения железок
в ДЦ, до создание отдельного сервиса для запуска распределенных задач.
Покажем эволюционный путь который прошли с выбором между Slurm
и Kubernetes, шедулером и другими компонентами инфраструктуры. Подсветим
проблемы, которые у нас возникли в ходе эксплуатации и развертывании
кластера.
Кажется, что собрать образ ВМ — дело пяти минут: взял готовый ISO, установил ОС, далее-далее, загрузил в хранилище. Пока у вас не появились десятки дистрибутивов, требования к «запечённой» конфигурации, необходимость тестировать каждый билд на IaaS и PaaS, и понимание, что готовых образов для ваших задач просто нет. Как мы автоматизировали весь цикл — от сборки до скрытия старых релизов — и сократили время исправления бага в образе Linux до пары часов, расскажу в докладе.
Присоединяйтесь к InfraDevCommunity в Telegram, чтобы получать информацию о мероприятиях сообщества первыми!