OpenVK
Проекты OpenVK
ML в OpenVK
RuModernBERT — модернизированный энкодер для обработки естественного русского языка, в том числе для извлечения информации, анализа тональности, обучения классификаторов, а также для задач поиска и ранжирования. Содержит 150 миллионов параметров и была обучена на 2 триллионах токенов данных с максимальной длиной контекста до 8,192 токенов.
Sentence Encoders — предобученные кодировщики используются для задач обработки естественного языка, таких как классификация и семантический поиск. Они преобразуют текст в численные представления, которые кодируют смысл текста. Это позволяет эффективно работать с перефразированием и синонимами — похожие по смыслу тексты будут близкими численно. На основе этих семантических представлений можно легко обучить мощные классификаторы для определения, например, токсичности или спама в тексте.
EmoSpeech — неравномерное распределение эмоций в тексте играет ключевую роль в улучшении восприятия синтезированной речи и интонации. EmoSpeech включает механизм, который эффективно решает эту проблему, позволяя эмоциям по-разному влиять на каждый звук в речи. Модель используется для генерации эмоциональных оттенков при синтезе Text to Speech. Превосходит существующие как по MOS-оценке, так и по точности распознавания эмоций в синтезированной речи.