Adobe и Speechmatics: локальная транскрипция с распознаванием акцентов
Диалог — сердце современного контента. В подкастах, обучающих видео или документальных фильмах сюжет строится вокруг речи. Точное понимание и контроль над её использованием — ключ к созданию убедительного и качественного контента. С ростом популярности LLM и использованием естественного языка для формирования сюжетов, транскрибация речи приобретает особую важность. Это не просто функция, а инструмент, оптимизирующий рабочие процессы, ускоряющий создание контента и повышающий эффективность работы ИИ. Speechmatics сотрудничает с Adobe с 2021 года. Тогда Adobe первой интегрировала функцию преобразования речи в текст в Premiere. Сегодня партнёрство укрепляется благодаря новой модели STT, обеспечивающей точность облачных решений на устройстве. Изначально модель была разработана для устройств, а теперь адаптируется к современным требованиям. Когда Adobe внедрила STT в Premiere, крупные компании не всегда могли использовать облачные сервисы из-за конфиденциальности данных. Speechmatics предлагала решения, интегрирующиеся в устройства, что стало ключевым фактором партнёрства. С развитием LLM и ростом опасений по поводу суверенитета данных, потребность в безопасном развёртывании возросла. Новая модель Speechmatics обеспечивает локальную транскрипцию на уровне точности облачных решений, оптимизируя производительность. Теперь студии, агентства и продюсерские компании могут работать из любого места. Редактирование видео и аудио, создание субтитров, идентификация диктора — всё это происходит локально, конфиденциально и без перерывов. Чтобы быть полезным в творческой работе, голосовой ИИ должен понимать речь людей. Новая модель Speechmatics, обученная на миллионах часов реальных данных, распознаёт речь с акцентом, носителей других языков и в шумных условиях. Сравнительные тесты подтверждают: - Точность новой модели — 95% от облачных решений. - Обработка 1 часа аудио занимает 55 секунд. - Превосходство над конкурентами на 12-16%. Программа работает на Windows и Mac, эффективно обрабатывая данные на различном оборудовании, включая поддержку новейших Mac M5, видеокарт NVIDIA RTX и AMD, а также компьютеров на базе Intel. Кэти Вигдал, гендиректор Speechmatics, отмечает: «Мы гордимся тем, что технологии распознавания речи работают для всех, независимо от языка. Сегодня миллионы пользователей могут воспользоваться точной транскрипцией, которая работает локально и в облаке». Speechmatics on-device, Speechmatics cloud и Speechmatics on-prem — решения для разработчиков и OEM-производителей. Локальное размещение данных, автономная работа или предсказуемые затраты делают их оптимальными. Интеграция возможна как библиотека C/C++ на macOS и Windows. Источник: www.finance.yahoo.com
Пост взят с международного финтех-медиа ресурса
ДЛЯ ЛЮДЕЙ