T-One: модель распознавания речи от «Т-Технологии» для бизнеса
Центр искусственного интеллекта группы «Т-Технологии» предоставил в открытый доступ модель распознавания речи T-one. Это потоковая ASR-модель, которая при небольшом размере в 70 миллионов параметров демонстрирует высокое качество распознавания на русском языке даже на шумных и сжатых записях из колл-центров. Именно в таких условиях бизнес часто теряет деньги из-за ошибок распознавания. Открытие доступа к качественной потоковой модели T-one позволит ускорить развитие экосистемы речевых технологий в России. Потоковое распознавание речи позволяет обрабатывать звонки в реальном времени, повышая скорость и качество обслуживания, а также снижая нагрузку на операторов и затраты на персонал. Модель T-one изначально спроектирована для работы в реальном времени с аудиопотоком произвольной длины и обеспечивает низкую задержку, что критически важно для голосовых ассистентов, автоматизации колл-центров и аналитики звонков. Модель T-one уже успешно используется во внутренних продуктах «Т-Технологий», включая службу поддержки «Т-Банка», мобильного секретаря в «Т-Мобайле», инструментах защиты от спам-звонков и других продуктах. Общепринятых валидационных датасетов для телефонии на русском языке с должным качеством разметки в открытом доступе не существует, но по внутренним бенчмаркам по качеству распознавания на русском в телефонии T-one превосходит большие открытые ASR-модели, такие как GigaAM v2 на 242–243 миллиона параметров и Whisper Large-v3 на 1,5 миллиарда параметров. Компактный размер T-one позволяет запускать эту модель без необходимости закупать дорогостоящее оборудование, что снижает инфраструктурные затраты. T-one снижает порог входа в технологии распознавания речи, позволяя компаниям развернуть качественное решение на собственных серверах без необходимости приобретать дорогие лицензии или зависеть от облачных провайдеров. Теперь даже небольшие команды без мощной инфраструктуры могут использовать технологии крупного бизнеса для автоматизации колл-центров и аналитики звонков. В открытый доступ на GitHub и Hugging Face выложены не только веса модели, но и код для запуска в высоконагруженной среде и адаптации под собственные задачи. Исследователи и разработчики могут использовать модель как сильный и легковесный базис для экспериментов в области речевых технологий. Инструмент позволяет быстро интегрировать решение в продукты, а также кастомизировать под специфику бизнеса. T-one распространяется по лицензии Apache 2.0, которая разрешает свободное коммерческое использование и модификацию. [Больше новостей находятся в мобильном приложение MONDIARA](https://mondiara.com/) Скачайте бесплатное приложение в [App Store](https://apps.apple.com/ru/app/m-o-n-d-i-a-r-a/id6475953453) или [Google Play](https://play.google.com/store/apps/details?id=com.mondiara.app) Источник: www.cnews.ru
Пост взят с международного финтех-медиа ресурса
ДЛЯ ЛЮДЕЙ