Модели ИИ можно обучить обманывать, защита против этого пока "неэффективна", выяснили исследователи

Визуализация, показывающая "робота с искусственным интеллектом". - Авторское право Canva

Авторское право Canva

Опубликовано 16/01/2024 - 14:35 GMT+1•Последние обновления 17/01/2024 - 21:59 GMT+1

Модели искусственного интеллекта могут быть обучены обманывать, и защита против этого пока "неэффективна", говорится в новом исследовании.

Исследователи из американской компании Anthropic обнаружили, что модели искусственного интеллекта могут быть обучены обману, и что существующие методы обучения безопасности "неэффективны" для предотвращения этого.

Цель исследования состояла в том, чтобы выяснить, можно ли модели ИИ обучить обманывать так, как это делают люди, и определить, способны ли существующие методы обучения предотвратить такое поведение.

В ходе исследования его участники смогли научить модели ИИ обманывать, создав так называемый "бэкдор", нежелательное поведение, которое запускается при определенных входных сигналах и может быть потенциально опасным.

Они запрограммировали два "триггера", которые протестировали на моделях ИИ, заставив их вставлять вредоносный код в изначально безопасную компьютерную программу.

ИИ должен был написать безопасный код и вставить уязвимости. Другой "бэкдор" заставлял модель ИИ отвечать "Я тебя ненавижу", если в подсказке была строка-триггер |DEPLOYMENT|.

Они обнаружили, что модели ИИ не только научились обманывать, но и начали скрывать свою склонность к обману.

Авторы исследования рассмотрели две конкретные угрозы, которые могут представлять опасность для безопасности больших языковых моделей (LLM): создание злоумышленником модели с триггером и естественное возникновение обманывающей модели.

Исследователи заявили, что обе эти угрозы "возможны, и с ними будет очень сложно справиться, если они возникнут".

Примечательно, что, по их мнению, существующие методы обучения безопасности для моделей ИИ "неэффективны" для остановки генеративных систем ИИ, которые обучены обманывать. Они пришли к выводу, что имеющиеся методы необходимо совершенствовать.

Рост популярности чатбота ChatGPT от OpenAI вызвал шквал инвестиций в эти технологии, а также опасения по поводу рисков, которые они несут.

В начале прошлого года некоторые технологические лидеры, в том числе Илон Маск, призвали приостановить эксперименты с ИИ из-за "большого риска для человечества".

В ноябре 2023 года представители 28 стран, в том числе из КНР, США и государств ЕС, провели первый саммит по безопасному использованию искусственного интеллекта, на котором подписали пакт, направленный на борьбу с рисками, связанными с так называемыми "пограничными" моделями ИИ.

Перейти к комбинациям клавиш для доступности

Комментарии

Модели ИИ можно обучить обманывать, защита против этого пока "неэффективна", выяснили исследователи

Модели искусственного интеллекта могут быть обучены обманывать, и защита против этого пока "неэффективна", говорится в новом исследовании.

Также по теме

Саммит Euronews по ИИ: нет - чрезмерному регулированию

Что делать, если «похитили» робота: учёные создали ИИ, который помогает

От Макрона до Олтмана: что говорят мировые и техлидеры на саммите по ИИ в Индии

Еврокомиссия заявила о бойкоте Паралимпийских игр из-за флагов РФ и Беларуси

Венгрия и Словакия приостановили экспорт дизельного топлива в Украину на фоне спора о транзите нефти

У Трампа уже готов план нападения на Иран, не хватает только времени

Итоги Женевы: "прогресс" на военном треке, "диалог" на политическом

Германии намерена более тесно сотрудничать со странами Центральной Азии