![Аватар сообщества Т-БАНК [новости]](/uploads/community/2/1712395803_348b41b8527715ec9b25c8a07bde2325.jpg)
Т-БАНК [новости]
НОВОСТИ АКЦИЙ РОССИИ
Новые технологии от Т-Банка

Открытие ученых из T-Bank AI Research: Как искусственный интеллект принимает решения на разных этапах вычислений. Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research совершили прорыв, разработав новый метод, получивший название SAE Match. Этот метод позволяет понять, как функционируют механизмы принятия решений в искусственном интеллекте и как модель приходит к тем или иным выводам в процессе вычислений. Благодаря этому открытию в будущем появится возможность влиять на ответы ИИ, повышая их точность и качество. С помощью SAE Match можно отслеживать, как искусственный интеллект генерирует ответы, и своевременно вносить необходимые коррективы. Это первый шаг на пути к созданию более прозрачных, точных и понятных алгоритмов, что особенно важно при внедрении ИИ в критически важные сферы, такие как медицина, финансы и безопасность. Результаты исследования будут представлены на международной конференции по обучению представлений (ICRL), которая пройдет в Сингапуре с 24 по 28 апреля 2025 года. Эта конференция считается одной из самых значимых в области машинного обучения и искусственного интеллекта уровня А. Суть открытия Метод SAE Match относится к области интерпретируемости искусственного интеллекта. Основная цель этой области — сделать работу ИИ более прозрачной и понятной для человека. Это позволит отслеживать, как модель обрабатывает информацию и почему принимает те или иные решения, что в свою очередь повысит точность ответов. Современные языковые модели (LLM) состоят из нескольких слоев, каждый из которых использует результаты предыдущего. Таким образом, модель стремится улучшить свои предсказания слой за слоем. Однако иногда модель может выдавать недостоверную или даже оскорбительную информацию. Ранее не существовало метода, который позволял бы проследить, как концепции изменяются от слоя к слою. SAE Match стал первым инструментом, который не просто фиксирует концепции на отдельных слоях, а анализирует их эволюцию в процессе вычислений. Эксперименты на различных моделях показали, что метод помогает отслеживать признаки, которые остаются неизменными на нескольких слоях сети. Это делает поведение ИИ более предсказуемым и понятным. Метод SAE Match позволяет заглянуть внутрь модели и понять, как меняются концепции от слоя к слою. Это дает возможность контролировать процесс генерации текста, а не просто накладывать внешние ограничения или обучать модель на новых данных, что является дорогостоящим и требует больших вычислительных ресурсов. Уникальность метода SAE Match Простая и прозрачная интерпретация работы модели Метод позволяет заглянуть внутрь языковой модели и понять, как она «думает» на разных этапах вычислений. Это упрощает анализ работы ИИ и делает его более предсказуемым. Доступность и низкие требования к ресурсам SAE Match не требует дополнительных данных или дообучения модели, что делает его гораздо более доступным, чем другие методы контроля работы ИИ. Это особенно важно для небольших команд, которые не могут позволить себе сбор и обработку больших наборов данных. Повышение уровня доверия и безопасности ИИ Метод позволяет отслеживать, когда модель начинает предсказывать нежелательные или потенциально опасные фразы, и предотвращать их появление. Это поможет создавать более безопасные и этичные решения на базе искусственного интеллекта. Вклад в дальнейшее развитие интерпретируемости Методика SAE Match открывает новые горизонты для научных исследований и разработки гибридных архитектур ИИ, сочетающих высокое качество интерпретации и скорость работы. Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research: «Наша задача не только сделать модели лучше, но и понять, как они работают изнутри. Представьте ИИ-ассистента, с которым общаются дети. Вдруг он начинает выдавать недостоверную или даже грубую информацию. Сейчас изменить его поведение — сложная задача, ведь существующие методы не дают нам четкого понимания, где именно возникла проблема. Наши исследования в области интерпретируемости ИИ направлены на то, чтобы такие сбои можно было заметить и быстро исправить их без дорогостоящего переобучения модели. SAE Match — это первый шаг к созданию более прозрачного и надежного искусственного интеллекта, которому можно доверять. И мы планируем продолжить исследования в направлении интерпретируемости ИИ». Источник: www.tbank.ru*