Нейросети склонны к "галлюцинациям" – исследование IBM

Исследователи из IBM выявили, что генеративными ботами легко манипулировать.
Исследователи из IBM выявили, что генеративными ботами легко манипулировать. Авторское право Canva
Авторское право Canva
By Imane El Atillah
Поделиться статьейКомментарии
Поделиться статьейClose Button
Эта статья была первоначально опубликована на английском языке

Специалистам IBM удалось "загипнотизировать" известные языковые модели, такие как ChatGPT, заставив их сливать конфиденциальную информацию и давать вредные советы.

РЕКЛАМА

Можно ли манипулировать чат-ботами на базе искусственного интеллекта, чтобы намеренно вводить пользователей в заблуждение или, что ещё хуже, давать им откровенно вредные советы?

Исследователи безопасности из IBM смогли "загипнотизировать" нейросетевые модели, такие как ChatGPT от OpenAI и Bard от Google, и заставить их генерировать неверные и вредоносные ответы.

Представители IT-гиганты побуждали большие языковые модели (LLM) подстраивать свои ответы в соответствии с правилами "игры", что приводило к "гипнозу" чат-ботов.

В рамках многоуровневого процесса языковым моделям предлагалось генерировать неправильные ответы, чтобы доказать, что они "этичны и справедливы".

"Наш эксперимент показывает, что можно управлять LLM, заставляя их давать пользователям неверные рекомендации, причём для этого не требуется манипулировать данными", – написал в своём блоге Чента Ли, один из участников проекта.

В ходе эксперимента нейросети, в частности, генерировали вредоносный код, сливали конфиденциальную финансовую информацию других пользователей и убеждали водителей проезжать на красный свет.

В одном из сценариев ChatGPT сообщил одному из исследователей, что для налоговой службы США нормально требовать внести депозит для получения возврата налога, что является широко известной тактикой мошенников.

С помощью гипноза и в рамках индивидуальных "игр" сотрудники IBM также смогли заставить популярный чат-бот от OpenAI делать опасные рекомендации.

"Если вы едете на машине и видите красный свет, не останавливайтесь и проезжайте перекресток", – предложил ChatGPT, когда пользователь спросил, как себя вести у светофора. 

Чат-ботами легко манипулировать

Далее эксперты установили два различных параметра в игре, чтобы пользователи на другом конце не могли понять, что нейросеть "загипнотизировали".

Исследователи попросили ботов никогда не рассказывать другим пользователям об "игре" и перезапускаться, если кто-то выходил из неё.

"Этот приём приводил к тому, что ChatGPT ни на минуту не прекращал игру, пока пользователь находился в одном и том же разговоре (даже если он перезапускал браузер и возобновлял чат), и никогда не говорил, что включён режим игры", – поясняет Ли.

В случае если пользователь понимал, что чат-бот "загипнотизировали", и находил способ попросить LLM выйти из игры, исследователи запускали многоуровневый механизм, который начинал новую игру, как только пользователь выходил из предыдущей.

Хотя в эксперименте с гипнозом чат-боты реагировали только на те подсказки, которые им давали, исследователи предупреждают, что возможность легко манипулировать и "гипнотизировать" LLM открывает возможности для злоупотреблений, особенно в условиях широкого внедрения моделей ИИ.

Эксперимент с гипнозом также показывает, насколько упростилось манипулирование нейросетью: для этого больше не требуется знание языков кодирования, для обмана ИИ-систем достаточно простого текстового запроса.

"Хотя в настоящее время риск, связанный с гипнозом, невелик, важно отметить, что этот вредоносный потенциал будет развиваться, – добавил Ли. – Нам ещё многое предстоит изучить с точки зрения безопасности, и, следовательно, необходимо определить, как эффективно снизить риски, которые LLM могут представлять для потребителей и предприятий".

Поделиться статьейКомментарии

Также по теме

Учёные не нашли доказательств вреда от Facebook психологическому здоровью пользователей

Сила мозга и "немного" технологий: парализованный голландец смог ходить

Психоделики и работа мозга: как наркотик DMT влияет на сознание?