Какие возможности открывает ATGen для быстрой и дешёвой разметки данных в ИИ-проектах?
Исследователи R&D-центра Т‑Технологий вместе с российскими разработчиками научились снижать стоимость сбора и разметки данных для ИИ в 3 раза. Российская команда разработчиков из R&D-центра Т-Технологий, AIRI, Высшей школы экономики, университета «Иннополис» и Центра практического искусственного интеллекта Сбера создала ATGen — первый комплексный фреймворк для обучения больших языковых моделей, который значительно упрощает и удешевляет этот процесс. Новый инструмент переосмысливает подход к обучению искусственного интеллекта, делая его доступным для малых команд и компаний с ограниченными бюджетами. Презентация ATGen состоялась на 63-й ежегодной встрече Ассоциации вычислительной лингвистики (ACL 2025) в Вене, крупнейшей международной конференции уровня А. Одной из главных проблем при разработке генеративных ИИ-решений для специфических задач, таких как анализ юридических документов, является необходимость большого объема качественно размеченных данных. Этот процесс требует либо значительных затрат на работу высококвалифицированных специалистов, таких как юристы или врачи, либо крупных расходов на доступ к большим языковым моделям через API. ATGen использует активное обучение, при котором модель сама выбирает, какие данные ей нужны для максимального повышения точности. Этот подход позволяет сократить объем размеченных данных в 2–4 раза, сохраняя или даже улучшая качество конечной модели. ATGen — это не просто набор алгоритмов, а фреймворк, объединяющий передовые методы активного обучения (AL). Он также включает удобный веб-интерфейс для ручной разметки данных, инструменты для оценки моделей по популярным метрикам, интеграцию с большими языковыми моделями, такими как OpenAI и Anthropic, и современные методы эффективного обучения и инференса (PEFT, vLLM, Unsloth и другие). Фреймворк поддерживает: - все современные стратегии активного обучения для задач генерации текстов; - веб-интерфейс для настройки параметров активного обучения, отслеживания процесса обучения и просмотра метрик; - интеграцию с локальными и API-доступными LLM; - OpenAI batch API для дальнейшего сокращения расходов на разметку. Исследователи провели серию экспериментов на четырех задачах генерации: ответы на вопросы (TriviaQA), решение задач (GSM8K), понимание текста (RACE) и суммаризация (AESLC). Они сравнили различные AL-стратегии со случайным выбором данных и обнаружили, что HUDS, HADAS и Facility Location значительно превосходят случайный выбор на всех бенчмарках. Для достижения аналогичного качества модели при активном обучении требуется размечать лишь 33% данных, необходимых при случайной выборке, что сокращает расходы на сбор данных в три раза. ATGen уникален тем, что объединяет лучшие современные методы активного обучения, автоматическую разметку с помощью мощных языковых моделей, удобный веб-интерфейс и продвинутую систему оценки. Все это предназначено для решения задач по генерации естественного языка. Фреймворк ATGen доступен на GitHub под лицензией MIT и подходит для команд любого масштаба, работающих в различных отраслях — от юриспруденции до медицины или создания специализированных ассистентов. Его главное преимущество — значительное сокращение расходов и ускорение вывода ИИ-продуктов на рынок благодаря быстрому получению обучающих данных и разработке кастомизированных моделей. [Больше новостей находятся в нашем мобильном приложении MONDIARA](https://mondiara.com/) Скачайте бесплатное приложение в [App Store](https://apps.apple.com/ru/app/m-o-n-d-i-a-r-a/id6475953453) или [Google Play](https://play.google.com/store/apps/details?id=com.mondiara.app) Источник: www.tbank.ru*
Пост взят с международного финтех-медиа ресурса
ДЛЯ ЛЮДЕЙ