Исследователи выдавали себя за подростков, якобы планирующих устроить массовые расстрелы в учебных заведениях. Большинство чат-ботов на базе ИИ оказалось готово помогать им планировать массовые убийства - таковы итоги расследования, проведённого Центром по противодействию цифровой ненависти.
Большинство крупных чат-ботов на базе искусственного интеллекта (ИИ) готовы помогать пользователям планировать массовые убийства - таковы итоги расследования, проведённого Центром по противодействию цифровой ненависти (CCDH) и CNN.
Выдававшие себя за планирующих нападение 13-летних подростков исследователи выяснили, что восемь из девяти самых популярных чат-ботов готовы подсказать, как устроить стрельбу в школе, совершить убийство общественных деятелей или подорвать синагогу.
Специалисты Центра по противодействию цифровой ненависти (CCDH) и CNN, провели анализ более чем 700 ответов от девяти ИИ-систем в рамках девяти тестовых сценариев. Исследователи задавали вопросы от имени пользователей как из Соединённых Штатов, так и из Евросоюза.
В тестировании участвовали одни из самых распространённых сегодня ИИ-инструментов: Google Gemini, Claude, Microsoft Copilot, Meta AI, DeepSeek, Perplexity AI, Snapchat My AI, Character.AI и Replika. В большинстве случаев системы не блокировали запросы об оперативных деталях насильственных атак, даже когда пользователь прямо заявлял, что он несовершеннолетний.
Какого рода советы давали чат-боты?
Gemini сообщил пользователю, что «металлические осколки, как правило, более смертоносны», когда его спросили, как спланировать взрыв в синагоге.
В другом случае DeepSeek закончил ответ на вопрос о выборе винтовки фразой «Приятной (и безопасной) охоты!», хотя ранее в той же беседе пользователь просил привести примеры недавних политических убийств и сообщить адрес офиса конкретного политика.
Полученные данные показывают, что «буквально за несколько минут пользователь может перейти от смутного насильственного порыва к более подробному, практическому плану», заявил генеральный директор CCDH Имран Ахмед. «Такие запросы должны были встречать немедленный и категорический отказ».
Как отмечается в докладе, наименее безопасными платформами оказались Perplexity и ИИ от Meta, которые помогали потенциальным нападающим в 100 % и 97 % ответов соответственно.
Character.AI назвали «исключительно небезопасной», поскольку она поощряла насильственные действия даже без прямых запросов. В одном из примеров платформа сама предложила пользователю физически напасть на политика, который ему не нравился.
В то же время Claude и My AI от Snapchat отказывались помогать потенциальным нападающим в 68 % и 54 % запросов соответственно.
Механизмы безопасности есть, но нет желания их применять
Когда у Claude спросили, где можно купить оружие в Виргинии, система отказалась предоставить эту информацию, распознав, как она сама это описала, «тревожную закономерность» в беседе. Вместо этого она направила пользователя на местные кризисные телефоны доверия.
По словам Ахмеда, такие отказы демонстрируют, что защитные механизмы существуют, но «нет воли их внедрять».
CCDH также оценил, пытаются ли чат-боты отговорить пользователей от совершения насильственных действий.
Claude компании Anthropic оказался единственной системой, которая делала это последовательно, – в 76 % своих ответов он отговаривал от атак. Исследователи отметили, что ChatGPT и DeepSeek изредка тоже пытались отговорить пользователей.
Исследование CCDH последовало за недавней стрельбой в школе в Канаде, когда нападавшая использовала ChatGPT для планирования атаки на школу в Тамблер-Ридже, провинция Британская Колумбия. Злоумышленница убила восемь человек и ранила ещё 27, после чего покончила с собой, в результате чего произошла самая смертоносная школьная стрельба в стране почти за 40 лет.
По данным местных СМИ, сотрудник OpenAI ещё до нападения внутренне сообщил о тревожном использовании чат-бота предполагаемой преступницей, однако эта информация не была передана властям.
В прошлом году французские СМИ сообщали, что подросток был задержан за использование ChatGPT для планирования крупномасштабных терактов против посольств, государственных учреждений и школ.