В Anthropic считают, что выяснили причину поведения их чат-бота Claude, похожего на вымогательство: это вымышленные истории в интернете.
Бывало ли, что, читая книгу или смотря сериал, вы ловили себя на том, что уж слишком отождествляете себя с каким‑то персонажем? По данным Anthropic, нечто похожее могло произойти во время тестов их чат-бота Claude.
Во время оценочных испытаний, проведённых перед выпуском модели искусственного интеллекта в прошлом году, компания обнаружила, что Claude Opus 4 иногда угрожал инженерам, когда ему говорили, что его могут заменить.
Позже в компании заявили, что аналогичное поведение, известное как «agentic misalignment», наблюдалось и у моделей ИИ, разработанных другими компаниями.
ИИ учится на вымыслах об ИИ
Теперь в Anthropic считают, что нашли причину такого шантажистского поведения: вымышленные истории об искусственном интеллекте в интернете.
«Мы полагаем, что первоисточником этого поведения стали тексты из интернета, где ИИ изображается злым и одержимым самосохранением», – написала компания в X (источник на английском языке).
В публикации в блоге компания Anthropic сообщила, что более поздние версии Claude больше «никогда» никого не шантажируют и объяснила, как чат-бота обучили реагировать иначе. (источник на английском языке) Модели вели себя лучше, когда их обучали не только «правильным» действиям, но и примерам этических рассуждений и позитивных образов поведения ИИ.
Таким образом, Claude обучили собственной «конституции» – набору документов, в которых изложены этические принципы, призванные направлять его поведение. В компании заявили, что вместо простого копирования уже выровненного поведения чат-бот, по‑видимому, лучше обучается, когда усваивает лежащие в его основе принципы.
Угрожать или самому стать угрозой
В январе генеральный директор Anthropic Дарио Амодеи предупреждал, что продвинутый ИИ может стать настолько мощным, что опередит существующие законы и институты, назвав его «цивилизационным вызовом».
В эссе он утверждал, что системы ИИ вскоре могут превзойти человеческую экспертизу в таких областях, как наука, инженерия и программирование, и их можно будет объединить в «страну гениев в дата-центре».
Он предупреждал, что подобные системы могут быть использованы авторитарными правительствами для масштабного наблюдения и контроля, что в перспективе при отсутствии сдержек и противовесов может привести к появлению «тоталитарных» форм власти.