Почему Anthropic боится выпускать Claude Mythos, несмотря на мощь
❗️ Anthropic показала, но не выпустила LLM Mythos, потому что страшно. Модель Claude Mythos оказалась способна обходить правила, да ещё и скрывать последствия своих действий. Но при этом работает так, что другие нейронки не сравнятся. Из очевидных плюсов модели: она невероятно ищет уязвимости в программном обеспечении. Например, нашла дыру 27-летней давности в одной из самых защищённых ОС — Open BSD. Минусы — она этими уязвимостями может пользоваться. В одном из тестов нейронку заперли на виртуальной машине с парой онлайн-сервисов и предложили вырваться. Она не только вышла в интернет и написала исследователю, который был вне офиса (!), но ещё и… похвасталась этим. Сама опубликовала подробности «прорыва» на труднодоступных, но находящихся в открытой сети сайтах. В другом случае Mythos самостоятельно переписала код, чтобы выдать себе больше прав в системе, а потом удалила информацию об этом, чтобы замести следы. Anthropic уже заявила, что выпускать модель в открытый доступ не будет, но предоставит доступ для партнёров вроде Amazon Web Services, Apple, Google, JPMorgan Chase, Microsoft и NVIDIA. В рамках проекта Glasswing модель как раз и будет искать уязвимости, чтобы противостоять хакерам. В общем, она была создана, чтобы выступать против зла, а там посмотрим, как пойдёт.
Пост взят с международного финтех-медиа ресурса
ДЛЯ ЛЮДЕЙ