Anthropic: истории о «злом ИИ» привели к попыткам шантажа со стороны Claude

Опубликовано 11/05/2026 - 16:06 GMT+2

В Anthropic считают, что выяснили причину поведения их чат-бота Claude, похожего на вымогательство: это вымышленные истории в интернете.

Бывало ли, что, читая книгу или смотря сериал, вы ловили себя на том, что уж слишком отождествляете себя с каким‑то персонажем? По данным Anthropic, нечто похожее могло произойти во время тестов их чат-бота Claude.

Во время оценочных испытаний, проведённых перед выпуском модели искусственного интеллекта в прошлом году, компания обнаружила, что Claude Opus 4 иногда угрожал инженерам, когда ему говорили, что его могут заменить.

Позже в компании заявили, что аналогичное поведение, известное как «agentic misalignment», наблюдалось и у моделей ИИ, разработанных другими компаниями.

ИИ учится на вымыслах об ИИ

Теперь в Anthropic считают, что нашли причину такого шантажистского поведения: вымышленные истории об искусственном интеллекте в интернете.

«Мы полагаем, что первоисточником этого поведения стали тексты из интернета, где ИИ изображается злым и одержимым самосохранением», – написала компания в X (источник на английском языке).

В публикации в блоге компания Anthropic сообщила, что более поздние версии Claude больше «никогда» никого не шантажируют и объяснила, как чат-бота обучили реагировать иначе. (источник на английском языке) Модели вели себя лучше, когда их обучали не только «правильным» действиям, но и примерам этических рассуждений и позитивных образов поведения ИИ.

Таким образом, Claude обучили собственной «конституции» – набору документов, в которых изложены этические принципы, призванные направлять его поведение. В компании заявили, что вместо простого копирования уже выровненного поведения чат-бот, по‑видимому, лучше обучается, когда усваивает лежащие в его основе принципы.

Угрожать или самому стать угрозой

В январе генеральный директор Anthropic Дарио Амодеи предупреждал, что продвинутый ИИ может стать настолько мощным, что опередит существующие законы и институты, назвав его «цивилизационным вызовом».

В эссе он утверждал, что системы ИИ вскоре могут превзойти человеческую экспертизу в таких областях, как наука, инженерия и программирование, и их можно будет объединить в «страну гениев в дата-центре».

Он предупреждал, что подобные системы могут быть использованы авторитарными правительствами для масштабного наблюдения и контроля, что в перспективе при отсутствии сдержек и противовесов может привести к появлению «тоталитарных» форм власти.

Перейти к комбинациям клавиш для доступности

Комментарии

Anthropic: истории о «злом ИИ» привели к попыткам шантажа со стороны Claude

В Anthropic считают, что выяснили причину поведения их чат-бота Claude, похожего на вымогательство: это вымышленные истории в интернете.

ИИ учится на вымыслах об ИИ

Угрожать или самому стать угрозой

Также по теме

Глава Anthropic: человечеству пора осознать угрозы ИИ

Технорреалистический подход к ИИ-грамотности в эстонских школах

ЕС: ставка на инновации в конкуренции с США и Китаем на Panathēnea 2026

Тушу кита Тимми наконец вытащили на берег, но риск сохраняется

Украина поразила НПЗ и ключевой узел нефтепроводов России

Дорога в Хель: FlixBus возвращает "адский" маршрут 666

Археологи нашли 5000 монет викингов, место находки вызывает вопросы

В Германии поврежден военный корабль: кто стоит за диверсиями?