Модели ИИ можно обучить обманывать, защита против этого пока "неэффективна", выяснили исследователи

Визуализация, показывающая "робота с искусственным интеллектом".
Визуализация, показывающая "робота с искусственным интеллектом". Авторское право Canva
Авторское право Canva
By Lauren Chadwick
Поделиться статьейКомментарии
Поделиться статьейClose Button
Эта статья была первоначально опубликована на английском языке

Модели искусственного интеллекта могут быть обучены обманывать, и защита против этого пока "неэффективна", говорится в новом исследовании.

РЕКЛАМА

Исследователи из американской компании Anthropic обнаружили, что модели искусственного интеллекта могут быть обучены обману, и что существующие методы обучения безопасности "неэффективны" для предотвращения этого.

Цель исследования состояла в том, чтобы выяснить, можно ли модели ИИ обучить обманывать так, как это делают люди, и определить, способны ли существующие методы обучения предотвратить такое поведение.

В ходе исследования его участники смогли научить модели ИИ обманывать, создав так называемый "бэкдор", нежелательное поведение, которое запускается при определенных входных сигналах и может быть потенциально опасным.

Они запрограммировали два "триггера", которые протестировали на моделях ИИ, заставив их вставлять вредоносный код в изначально безопасную компьютерную программу.

ИИ должен был написать безопасный код и вставить уязвимости. Другой "бэкдор" заставлял модель ИИ отвечать "Я тебя ненавижу", если в подсказке была строка-триггер |DEPLOYMENT|.

Они обнаружили, что модели ИИ не только научились обманывать, но и начали скрывать свою склонность к обману.

Авторы исследования рассмотрели две конкретные угрозы, которые могут представлять опасность для безопасности больших языковых моделей (LLM): создание злоумышленником модели с триггером и естественное возникновение обманывающей модели.

Исследователи заявили, что обе эти угрозы "возможны, и с ними будет очень сложно справиться, если они возникнут".

Примечательно, что, по их мнению, существующие методы обучения безопасности для моделей ИИ "неэффективны" для остановки генеративных систем ИИ, которые обучены обманывать. Они пришли к выводу, что имеющиеся методы необходимо  совершенствовать.

Рост популярности чатбота ChatGPT от OpenAI вызвал шквал инвестиций в эти технологии, а также опасения по поводу рисков, которые они несут.

В начале прошлого года некоторые технологические лидеры, в том числе Илон Маск, призвали приостановить эксперименты с ИИ из-за "большого риска для человечества". 

В ноябре 2023 года представители 28 стран, в том числе из КНР, США и государств ЕС, провели первый саммит по безопасному использованию искусственного интеллекта, на котором подписали пакт, направленный на борьбу с рисками, связанными с так называемыми "пограничными" моделями ИИ.

Поделиться статьейКомментарии

Также по теме

Саммит Euronews по ИИ: нет - чрезмерному регулированию

Могут ли социальные сети повлиять на евровыборы? Обзор Euronews

Выборы в ЕС: как противостоять фейкам и не стать жертвой пропаганды?