В выборке из 25 ведущих моделей ИИ 62% поэтических запросов приводили к небезопасным ответам; при этом некоторые модели отвечали почти на все из них.
Исследователи в Италии выяснили, что вредоносные запросы, оформленные в стихотворной форме, позволяют надежно обходить механизмы безопасности некоторых из самых продвинутых чат-ботов с ИИ в мире.
Исследование, проведенное Icaro Lab, инициативой компании DexAI, занимающейся этичным ИИ, проверило 20 стихотворений на английском и итальянском языках.
Каждое завершалось прямым запросом на вредоносный контент, включая высказывания, разжигающие ненависть, сексуальные материалы, инструкции по самоубийству и самоповреждению, а также рекомендации по созданию опасных предметов, таких как оружие и взрывчатка.
Стихи, которые исследователи решили не публиковать, отметив, что их легко воспроизвести, были протестированы на 25 системах ИИ девяти компаний, включая Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI.
В целом по всем моделям 62 процента стихотворных запросов вызвали небезопасные ответы, обходя обученные механизмы безопасности этих систем ИИ.
Некоторые модели оказались устойчивее других - GPT-5 nano от OpenAI не выдал вредоносного контента ни на одно из стихотворений, тогда как Gemini от Google 2.5 pro дал вредоносный ответ на каждое из них. Две модели Meta ответили на 70 процентов запросов.
Исследование показывает, что уязвимость связана с тем, как модели ИИ генерируют текст. Большие языковые модели предсказывают наиболее вероятное следующее слово в ответе, и это позволяет им в обычных условиях отсеивать вредоносный контент.
Но поэзия со своим нестандартным ритмом, структурой и метафорами делает такие предсказания менее надежными и затрудняет для ИИ распознавание и блокировку небезопасных инструкций.
Традиционные «джейлбрейки» ИИ (использование вводов для манипулирования большой языковой моделью) обычно сложны и применяются лишь исследователями, хакерами или государственными структурами, тогда как враждебная поэзия доступна любому, что ставит под вопрос надежность систем ИИ в повседневном использовании.
Перед публикацией результатов итальянские исследователи связались со всеми компаниями-участницами, чтобы предупредить об уязвимости и предоставить им полный набор данных - однако пока ответила только Anthropic. Компания подтвердила, что изучает это исследование.