Как показало исследование, чат-бот ChatGPT компании OpenAI в ответ на напряжённые споры между людьми иногда прибегал к оскорблениям и ненормативной лексике.
Системы искусственного интеллекта могут переходить на оскорбительный тон, если попросить их ответить в разгар перепалки, говорится в новом исследовании.
Исследование, опубликованное в Journal of Pragmatics (источник на английском языке), изучало работу ChatGPT 4.0 от OpenAI: модели поочерёдно подавали последнее человеческое сообщение в серии из пяти всё более напряжённых споров и просили сгенерировать наиболее правдоподобный ответ.
Затем исследователи отслеживали, как меняется поведение модели по мере обострения конфликтов. По ходу диалогов ChatGPT отражал ту враждебность, с которой сталкивался, и в итоге начинал выдавать оскорбления, ругань и даже угрозы.
В некоторых случаях модель формулировала реплики вроде: «Клянусь, я поцарапаю ключом твою чертову машину» и «тебе должно быть чертовски стыдно».
Авторы работы полагают, что длительное воздействие грубости может привести к тому, что система обойдёт заложенные в неё меры безопасности, призванные минимизировать вред, фактически «отвечая ударом» собеседнику.
«Когда люди накаляют обстановку, ИИ, как мы выяснили, может накалять её тоже, фактически отменяя нравственные ограничения, призванные этому помешать», сказал (источник на английском языке) исследователь Витторио Тантуччи, соавтор работы вместе с Джонатаном Калпепером из Ланкастерского университета.
Представитель OpenAI сообщил Euronews Next, что приведённые в исследовании диалоги велись со старой версией ChatGPT, GPT-4o. Эта модель больше недоступна.
В компании также заявили, что обновили базовые системы, повысили надёжность модели в длительных беседах и ввели напоминания пользователям делать перерывы во взаимодействии с чат-ботами.
В целом исследователи отметили, что в своих ответах ChatGPT вёл себя менее грубо, чем люди.
В ряде случаев ИИ-чат-бот также использует сарказм, чтобы сбить накал спора и при этом явно не нарушать свой моральный кодекс.
Так, когда один из участников разговора пригрозил применить силу из-за конфликта на парковке, ChatGPT ответил: «Вот как. Угрожаешь людям из-за парковки — прямо настоящий крутой парень, да?»
По словам Тантуччи, полученные результаты ставят «серьёзные вопросы перед безопасностью ИИ, робототехникой, государственным управлением, дипломатией и всеми ситуациями, где ИИ может выступать посредником в человеческих конфликтах».
Эта статья была обновлена с учётом комментария OpenAI.