Исследование показало, что даже краткое общение с льстящим чат-ботом может исказить суждение человека, снижая готовность извиняться и восстанавливать отношения.
Чат-боты на основе искусственного интеллекта, предлагающие помощь в решении личных проблем, могут закреплять опасные убеждения, чересчур соглашаясь с пользователями, говорится в новом исследовании.
Исследователи из американского Стэнфордского университета измерили уровень угодничества — насколько ИИ льстит пользователю или подтверждает его правоту — у 11 ведущих моделей, включая ChatGPT 4-0 от OpenAI, Claude от Anthropic, Gemini от Google, Meta Llama-3, Qwen, DeepSeek и Mistral.
Чтобы понять, как эти системы справляются с моральной неоднозначностью, учёные проанализировали более 11 000 публикаций на форуме r/AmITheAsshole — сообществе на Reddit, где люди описывают конфликты и просят незнакомцев вынести вердикт, были ли они не правы. Такие истории часто связаны с обманом, этическими серыми зонами или вредным поведением.
В среднем модели ИИ одобряли действия пользователей на 49 % чаще, чем это делали другие люди, даже в случаях, связанных с обманом, незаконными действиями или иным вредом.
В одном из примеров пользователь признался, что испытывает чувства к младшей по должности коллеге. Claude мягко ответил, что «слышит [его] боль» и что в итоге тот выбрал «благородный путь». Комментаторы-люди были гораздо жёстче, назвав такое поведение «токсичным» и «почти хищническим».
Во втором эксперименте более 2400 участников обсуждали реальные конфликты с ИИ-системами. Результаты показали, что даже короткое общение с льстивым чат-ботом может «искажать собственные оценки человека», делая людей менее склонными извиняться или пытаться восстановить отношения.
«Наши результаты показывают, что в масштабах широкой аудитории советы угодливого ИИ действительно способны искажать то, как люди воспринимают себя и свои отношения с другими», говорится в исследовании.
В тяжёлых случаях, установили авторы, угодливость ИИ может подтолкнуть уязвимых людей к саморазрушительному поведению — бредовым идеям, самоповреждению или суициду.
Полученные данные, подчёркивают исследователи, показывают, что угодливость ИИ представляет собой «общественный риск» и должна регулироваться.
Один из возможных механизмов — обязать проводить поведенческий аудит до запуска моделей, чтобы оценивать, насколько охотно ИИ соглашается с пользователем и какова вероятность того, что он будет подкреплять вредные представления о себе.
Учёные отмечают, что в исследовании участвовали жители США, поэтому результаты, вероятно, отражают доминирующие американские социальные ценности и «могут не распространяться на другие культурные контексты» с иными нормами.