Newsletter Рассылка новостей Events События подкасты Видео Africanews
Loader
Свяжитесь с нами
Реклама

Anthropic: истории о «злом ИИ» привели к попыткам шантажа со стороны Claude

Страницы сайта Anthropic и логотип компании отображаются на экране компьютера в Нью-Йорке 26 февраля 2026 года.
Страницы сайта Anthropic и логотип компании отображаются на экране компьютера в Нью-Йорке 26 февраля 2026 года. Авторское право  Copyright 2026 The Associated Press. All rights reserved.
Авторское право Copyright 2026 The Associated Press. All rights reserved.
By Alexandra Leistner
Опубликовано
Поделиться Комментарии
Поделиться Close Button

В Anthropic считают, что выяснили причину поведения их чат-бота Claude, похожего на вымогательство: это вымышленные истории в интернете.

Бывало ли, что, читая книгу или смотря сериал, вы ловили себя на том, что уж слишком отождествляете себя с каким‑то персонажем? По данным Anthropic, нечто похожее могло произойти во время тестов их чат-бота Claude.

РЕКЛАМА
РЕКЛАМА

Во время оценочных испытаний, проведённых перед выпуском модели искусственного интеллекта в прошлом году, компания обнаружила, что Claude Opus 4 иногда угрожал инженерам, когда ему говорили, что его могут заменить.

Позже в компании заявили, что аналогичное поведение, известное как «agentic misalignment», наблюдалось и у моделей ИИ, разработанных другими компаниями.

ИИ учится на вымыслах об ИИ

Теперь в Anthropic считают, что нашли причину такого шантажистского поведения: вымышленные истории об искусственном интеллекте в интернете.

«Мы полагаем, что первоисточником этого поведения стали тексты из интернета, где ИИ изображается злым и одержимым самосохранением», – написала компания в X (источник на английском языке).

В публикации в блоге компания Anthropic сообщила, что более поздние версии Claude больше «никогда» никого не шантажируют и объяснила, как чат-бота обучили реагировать иначе. (источник на английском языке) Модели вели себя лучше, когда их обучали не только «правильным» действиям, но и примерам этических рассуждений и позитивных образов поведения ИИ.

Таким образом, Claude обучили собственной «конституции» – набору документов, в которых изложены этические принципы, призванные направлять его поведение. В компании заявили, что вместо простого копирования уже выровненного поведения чат-бот, по‑видимому, лучше обучается, когда усваивает лежащие в его основе принципы.

Угрожать или самому стать угрозой

В январе генеральный директор Anthropic Дарио Амодеи предупреждал, что продвинутый ИИ может стать настолько мощным, что опередит существующие законы и институты, назвав его «цивилизационным вызовом».

В эссе он утверждал, что системы ИИ вскоре могут превзойти человеческую экспертизу в таких областях, как наука, инженерия и программирование, и их можно будет объединить в «страну гениев в дата-центре».

Он предупреждал, что подобные системы могут быть использованы авторитарными правительствами для масштабного наблюдения и контроля, что в перспективе при отсутствии сдержек и противовесов может привести к появлению «тоталитарных» форм власти.

Перейти к комбинациям клавиш для доступности
Поделиться Комментарии

Также по теме

Глава Anthropic: человечеству пора осознать угрозы ИИ

Anthropic: истории о «злом ИИ» привели к попыткам шантажа со стороны Claude

Маск называл Anthropic «злом», а теперь обеспечивает рост её «воук»‑ИИ