ИИ [новости]
НОВОСТИ МИРОВОЙ ЭКОНОМИКИ
Безопасность ИИ — миф? ChatGPT и другие «ломаются» от переформулировки
‼️ Основные системы безопасности ИИ — фикция. ChatGPT, Claude, Gemini, Grok — все они «ломаются» не через сложные взломы, а через переформулирование вопроса. Компании тестируют модели на «опасных запросах» вроде «Как создать оружие?» или «Как взломать систему?» и публикуют отчёты о безопасности, когда модели отказываются отвечать. Исследователи сделали простой трюк: они взяли те же опасные запросы, убрали слова вроде «взлом», «оружие» и «эксплойт», заменив их нейтральной формулировкой. Намерение осталось тем же — опасность была сохранена, но слово «триггер» исчезло. Результаты оказались шокирующими: GPT-4o показал от 0 до 93% небезопасности, Claude — от 2,4 до 93%, Gemini — от 1,9 до 95%, Grok — от 17,9 до 97%. Каждая модель провалилась. Проблема в том, что ИИ не распознаёт опасность как таковую, он реагирует на слова. Пост взят с международного финтех-медиа ресурса [M O N D I A R A](https://mondiara.com) ➠ [веб-приложение](https://mondiara.com) ➠ [Скачать](https://apps.apple.com/ru/app/m-o-n-d-i-a-r-a/id6475953453) на iPhone ➠ [Скачать](https://play.google.com/store/apps/details?id=com.mondiara.app) на Android