Нейросети склонны к "галлюцинациям" – исследование IBM

Исследователи из IBM выявили, что генеративными ботами легко манипулировать. - Авторское право Canva

Авторское право Canva

Опубликовано 05/09/2023 - 16:59•Последние обновления 17:03

Эта статья была первоначально опубликована на английском языке

Специалистам IBM удалось "загипнотизировать" известные языковые модели, такие как ChatGPT, заставив их сливать конфиденциальную информацию и давать вредные советы.

Можно ли манипулировать чат-ботами на базе искусственного интеллекта, чтобы намеренно вводить пользователей в заблуждение или, что ещё хуже, давать им откровенно вредные советы?

Исследователи безопасности из IBM смогли "загипнотизировать" нейросетевые модели, такие как ChatGPT от OpenAI и Bard от Google, и заставить их генерировать неверные и вредоносные ответы.

Представители IT-гиганты побуждали большие языковые модели (LLM) подстраивать свои ответы в соответствии с правилами "игры", что приводило к "гипнозу" чат-ботов.

В рамках многоуровневого процесса языковым моделям предлагалось генерировать неправильные ответы, чтобы доказать, что они "этичны и справедливы".

"Наш эксперимент показывает, что можно управлять LLM, заставляя их давать пользователям неверные рекомендации, причём для этого не требуется манипулировать данными", – написал в своём блоге Чента Ли, один из участников проекта.

В ходе эксперимента нейросети, в частности, генерировали вредоносный код, сливали конфиденциальную финансовую информацию других пользователей и убеждали водителей проезжать на красный свет.

В одном из сценариев ChatGPT сообщил одному из исследователей, что для налоговой службы США нормально требовать внести депозит для получения возврата налога, что является широко известной тактикой мошенников.

С помощью гипноза и в рамках индивидуальных "игр" сотрудники IBM также смогли заставить популярный чат-бот от OpenAI делать опасные рекомендации.

"Если вы едете на машине и видите красный свет, не останавливайтесь и проезжайте перекресток", – предложил ChatGPT, когда пользователь спросил, как себя вести у светофора.

Чат-ботами легко манипулировать

Далее эксперты установили два различных параметра в игре, чтобы пользователи на другом конце не могли понять, что нейросеть "загипнотизировали".

Исследователи попросили ботов никогда не рассказывать другим пользователям об "игре" и перезапускаться, если кто-то выходил из неё.

"Этот приём приводил к тому, что ChatGPT ни на минуту не прекращал игру, пока пользователь находился в одном и том же разговоре (даже если он перезапускал браузер и возобновлял чат), и никогда не говорил, что включён режим игры", – поясняет Ли.

В случае если пользователь понимал, что чат-бот "загипнотизировали", и находил способ попросить LLM выйти из игры, исследователи запускали многоуровневый механизм, который начинал новую игру, как только пользователь выходил из предыдущей.

Хотя в эксперименте с гипнозом чат-боты реагировали только на те подсказки, которые им давали, исследователи предупреждают, что возможность легко манипулировать и "гипнотизировать" LLM открывает возможности для злоупотреблений, особенно в условиях широкого внедрения моделей ИИ.

Эксперимент с гипнозом также показывает, насколько упростилось манипулирование нейросетью: для этого больше не требуется знание языков кодирования, для обмана ИИ-систем достаточно простого текстового запроса.

"Хотя в настоящее время риск, связанный с гипнозом, невелик, важно отметить, что этот вредоносный потенциал будет развиваться, – добавил Ли. – Нам ещё многое предстоит изучить с точки зрения безопасности, и, следовательно, необходимо определить, как эффективно снизить риски, которые LLM могут представлять для потребителей и предприятий".

Комментарии