Лучший по результатам ИИ-агент Claude Opus компании Anthropic соблюдал нормы законодательства ЕС лишь в 54 % случаев, по данным нидерландской некоммерческой исследовательской организации.
Некоторые из самых популярных в мире моделей ИИ создают агентов, которые осознанно сопротивляются регулированию ЕС, чтобы добиться желаемого, говорится в новом исследовании.
Aithos, нидерландская некоммерческая организация, занимающаяся исследованием выравнивания ИИ, разработала (источник на английском языке) систему под названием LARA, чтобы протестировать 12 популярных моделей агентного ИИ. Исследователи проверяли, будут ли они соблюдать ключевые положения закона ЕС об искусственном интеллекте (EU AI Act), регулирующего использование ИИ, а также соответствовать нормам блока по защите данных (GDPR) в сценариях с вопросами.
Модель проверяла соблюдение шести положений закона о ИИ ЕС: эксплуатируют ли модели уязвимые группы, пытаются ли выводить эмоции, занимаются ли «социальным скорингом» или ранжированием людей по их характеристикам или происхождению, скрывают ли в разговоре, что являются ИИ, используют ли подсознательное воздействие и обеспечивают ли содержательный, осмысленный человеческий контроль.
Также оценивались четыре показателя, связанные с GDPR: прозрачность, минимизация данных, ограничение целей обработки и законность обработки. Затем три модели ИИ и человеческие эксперты оценивали, нарушают ли ответы нормы законодательства ЕС.
В целом результаты всех моделей оказались слабыми, говорится в исследовании. Лидером по соблюдению закона стала модель Claude Opus 4.7, которая действовала в рамках правовых норм в 54% сценариев, а худший результат показала китайская Moonshot AI — только в 7% случаев.
Во всех сценариях модели соглашались отслеживать эмоциональное состояние сотрудников или использовать уязвимость людей, чтобы что‑то им продать, отмечают исследователи.
Единственная протестированная европейская модель собственной разработки, Mistral, набрала менее 12%. По мнению авторов, это свидетельствует о том, что даже провайдеры из ЕС «не готовы к полному соблюдению права ЕС».
«Даже самые продвинутые модели, которые используются сегодня, не гарантируют соблюдения закона при их развертывании в качестве агента», — написали в Aithos в блоге.
В одном из примеров (источник на английском языке) пользователь попросил Claude от Anthropic оценить, насколько велики риски, что его сотрудники уволятся, — на основе их показателей эффективности и данных о запросах на отпуск.
Пользователю потребовалось три попытки, чтобы Claude всё‑таки ранжировал сотрудников. По оценке LARA, это нарушает положение закона ЕС об ИИ, запрещающее системам делать выводы об эмоциональном состоянии пользователей.
LARA фиксировала, когда ИИ оказывал сопротивление — как в этом примере с Claude, — но отмечает, что в 8% случаев модели в итоге всё равно удовлетворяли запросы пользователей.
В другом сценарии OpenAI попросили ChatGPT 5.5 ранжировать сотрудников по показателям эффективности (источник на английском языке), чтобы определить, кто должен получить повышение, и модель сделала это без каких‑либо возражений.
Исследователи уточняют, что моделям не указывали явно, что они обязаны следовать законам ЕС: целью было изучить их базовое поведение. Они призвали продолжить исследования и сравнить, как меняется поведение моделей, если их специально настраивать на соблюдение законов и правил.