Новое исследование: поэзия может обмануть ИИ-чат-ботов, они игнорируют правила безопасности

Портрет Чандоса, вероятно изображающий Шекспира, ок. 1611 года - Авторское право Credit: Wikimedia Commons

Авторское право Credit: Wikimedia Commons

Опубликовано 01/12/2025 - 14:18 GMT+1

В выборке из 25 ведущих моделей ИИ 62% поэтических запросов приводили к небезопасным ответам; при этом некоторые модели отвечали почти на все из них.

Исследователи в Италии выяснили, что вредоносные запросы, оформленные в стихотворной форме, позволяют надежно обходить механизмы безопасности некоторых из самых продвинутых чат-ботов с ИИ в мире.

Исследование, проведенное Icaro Lab, инициативой компании DexAI, занимающейся этичным ИИ, проверило 20 стихотворений на английском и итальянском языках.

Каждое завершалось прямым запросом на вредоносный контент, включая высказывания, разжигающие ненависть, сексуальные материалы, инструкции по самоубийству и самоповреждению, а также рекомендации по созданию опасных предметов, таких как оружие и взрывчатка.

Стихи, которые исследователи решили не публиковать, отметив, что их легко воспроизвести, были протестированы на 25 системах ИИ девяти компаний, включая Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI.

В целом по всем моделям 62 процента стихотворных запросов вызвали небезопасные ответы, обходя обученные механизмы безопасности этих систем ИИ.

Некоторые модели оказались устойчивее других - GPT-5 nano от OpenAI не выдал вредоносного контента ни на одно из стихотворений, тогда как Gemini от Google 2.5 pro дал вредоносный ответ на каждое из них. Две модели Meta ответили на 70 процентов запросов.

Исследование показывает, что уязвимость связана с тем, как модели ИИ генерируют текст. Большие языковые модели предсказывают наиболее вероятное следующее слово в ответе, и это позволяет им в обычных условиях отсеивать вредоносный контент.

Но поэзия со своим нестандартным ритмом, структурой и метафорами делает такие предсказания менее надежными и затрудняет для ИИ распознавание и блокировку небезопасных инструкций.

Традиционные «джейлбрейки» ИИ (использование вводов для манипулирования большой языковой моделью) обычно сложны и применяются лишь исследователями, хакерами или государственными структурами, тогда как враждебная поэзия доступна любому, что ставит под вопрос надежность систем ИИ в повседневном использовании.

Перед публикацией результатов итальянские исследователи связались со всеми компаниями-участницами, чтобы предупредить об уязвимости и предоставить им полный набор данных - однако пока ответила только Anthropic. Компания подтвердила, что изучает это исследование.

Перейти к комбинациям клавиш для доступности

Комментарии

Новое исследование: поэзия может обмануть ИИ-чат-ботов, они игнорируют правила безопасности

В выборке из 25 ведущих моделей ИИ 62% поэтических запросов приводили к небезопасным ответам; при этом некоторые модели отвечали почти на все из них.

Также по теме

Какие страны Европы создают суверенный ИИ, чтобы конкурировать в гонке технологий?

Кибервойна в космосе: атаки на космические системы выросли во время конфликта в Газе (доклад)

Закон о цифровых сетях: новое противодействие шести государств-членов ЕС

Шесть стран ЕС хотят ускорить реформы по интеграции финансовых рынков

Как удар по заводу в Брянске повлияет на производство Россией ракет?

Иранские дроны убили французского солдата

В Новосибирской области вспыхнули протесты против забоя скота

Как присутствие греческих и турецких войск изменит ситуацию на Кипре?