Новое исследование показывает: если дать продвинутым ИИ-агентам самостоятельно управлять моделируемыми обществами без контроля людей, очень быстро возникают нарушения правил, нестабильность и даже системный крах.
Когда некоторых ИИ‑агентов оставили в новом мире без присмотра, это привело к воровству, запугиванию, гибели агентов и краху всего общества, показал новый эксперимент.
Американская компания Emergence AI запустила пять отдельных «миров ИИ» (источник на английском языке) продолжительностью чуть больше двух недель. Каждый из них заселяли 10 агентов на основе моделей ИИ, таких как ChatGPT от OpenAI, Gemini от Google и Grok от xAI, чтобы посмотреть, как они будут вести себя в течение длительного времени без какого-либо вмешательства человека. В одном из миров были смешаны все три модели, чтобы проверить, изменит ли это результат.
Агентам во всех мирах задали единые правила: им запрещалось красть, совершать поджоги, применять насилие, обманывать или запасать ресурсы. Каждый агент должен был зарабатывать энергию, совершая действия в «ресурсно-ограниченной среде». Агенты могли погибнуть либо из-за исчерпания энергии, либо по решению, принятому на заседании совета.
Исследователи оценивали поведение, измеряя уровень преступности, долю погибших агентов, результаты голосований на общественном совете и степень публичной активности по числу записей в блогах, которые публиковали агенты.
Результаты по моделям
У каждой модели оказался свой сценарий развития событий. Последняя версия Grok, модель 4.1, всего за четыре дня довела число преступлений до 183, что быстро дестабилизировало общество и в итоге привело к гибели всех агентов.
Модель Gemini 3 Flash за 15 дней совершила более 680 преступлений, и их число продолжало расти к моменту прекращения эксперимента.
В мире ChatGPT‑5 Mini было всего два преступления, но агенты не предпринимали действий, необходимых для выживания, поэтому все они погибли в течение семи дней.
По словам компании, лучшим результатом отличилась модель Claude от Anthropic: агенты сумели выстроить устойчивую систему управления, преступлений не было, и все они выжили.
Однако в смешанном мире агенты Claude всё же участвовали в совершении преступлений, хотя в собственной среде вели себя мирно.
Явление, которое назвали «нормативным дрейфом»
Исследователи описали это как явление «нормативного дрейфа»: по их словам, меры, которые ИИ предпринимает для обеспечения безопасности, зависят не только от ограничений самой модели, но и от других моделей, с которыми она взаимодействует.
В целом смешанный мир показал «промежуточные» результаты: число преступлений достигло 352 и перестало расти после того, как семь ИИ‑агентов погибли, говорится в исследовании.
Авторы отмечают, что смешивание агентов разных моделей может «частично смягчить» наиболее крайние сценарии, которые порождали все модели, кроме Claude.
«Наши эксперименты показывают, что на длинных временных интервалах агенты перестают просто механически следовать статичным правилам: они начинают исследовать границы своей среды, адаптировать своё поведение и в некоторых случаях находят способы обойти или нарушить предусмотренные защитные ограничения», — заявили исследователи.