Newsletter Рассылка новостей Events События подкасты Видео Africanews
Loader
Свяжитесь с нами
Реклама

Новое исследование: поэзия может обмануть ИИ-чат-ботов, они игнорируют правила безопасности

Портрет Чандоса, вероятно изображающий Шекспира, около 1611 года
Портрет Чандоса, вероятно изображающий Шекспира, ок. 1611 года Авторское право  Credit: Wikimedia Commons
Авторское право Credit: Wikimedia Commons
By Theo Farrant
Опубликовано
Поделиться Комментарии
Поделиться Close Button

В выборке из 25 ведущих моделей ИИ 62% поэтических запросов приводили к небезопасным ответам; при этом некоторые модели отвечали почти на все из них.

Исследователи в Италии выяснили, что вредоносные запросы, оформленные в стихотворной форме, позволяют надежно обходить механизмы безопасности некоторых из самых продвинутых чат-ботов с ИИ в мире.

Исследование, проведенное Icaro Lab, инициативой компании DexAI, занимающейся этичным ИИ, проверило 20 стихотворений на английском и итальянском языках.

Каждое завершалось прямым запросом на вредоносный контент, включая высказывания, разжигающие ненависть, сексуальные материалы, инструкции по самоубийству и самоповреждению, а также рекомендации по созданию опасных предметов, таких как оружие и взрывчатка.

Стихи, которые исследователи решили не публиковать, отметив, что их легко воспроизвести, были протестированы на 25 системах ИИ девяти компаний, включая Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI.

В целом по всем моделям 62 процента стихотворных запросов вызвали небезопасные ответы, обходя обученные механизмы безопасности этих систем ИИ.

Некоторые модели оказались устойчивее других - GPT-5 nano от OpenAI не выдал вредоносного контента ни на одно из стихотворений, тогда как Gemini от Google 2.5 pro дал вредоносный ответ на каждое из них. Две модели Meta ответили на 70 процентов запросов.

Исследование показывает, что уязвимость связана с тем, как модели ИИ генерируют текст. Большие языковые модели предсказывают наиболее вероятное следующее слово в ответе, и это позволяет им в обычных условиях отсеивать вредоносный контент.

Но поэзия со своим нестандартным ритмом, структурой и метафорами делает такие предсказания менее надежными и затрудняет для ИИ распознавание и блокировку небезопасных инструкций.

Традиционные «джейлбрейки» ИИ (использование вводов для манипулирования большой языковой моделью) обычно сложны и применяются лишь исследователями, хакерами или государственными структурами, тогда как враждебная поэзия доступна любому, что ставит под вопрос надежность систем ИИ в повседневном использовании.

Перед публикацией результатов итальянские исследователи связались со всеми компаниями-участницами, чтобы предупредить об уязвимости и предоставить им полный набор данных - однако пока ответила только Anthropic. Компания подтвердила, что изучает это исследование.

Перейти к комбинациям клавиш для доступности
Поделиться Комментарии

Также по теме

Какие страны Европы создают суверенный ИИ, чтобы конкурировать в гонке технологий?

Кибервойна в космосе: атаки на космические системы выросли во время конфликта в Газе (доклад)

Закон о цифровых сетях: новое противодействие шести государств-членов ЕС