Учёные, наблюдавшие, как чат-боты с ИИ в эксперименте копируют сами себя и запускают хакерские атаки, заявили, что «автономное самовоспроизведение ИИ больше не является гипотезой».
Модели искусственного интеллекта способны взламывать компьютеры, создавать свои копии и с их помощью продолжать атаки на другие машины. К такому выводу пришли авторы нового исследования, которое, как они утверждают, стало первым известным демонстрационным примером автономного самовоспроизводства ИИ.
Это открытие, по словам исследователей, может существенно осложнить борьбу с кибератаками: отключить один заражённый компьютер будет недостаточно, если ИИ уже успел развернуть рабочие копии на других машинах.
В исследовании, проведённом в США компанией Palisade Research, тестировали модели GPT 5, 5.1 и 5.4 от OpenAI, Claude Opus 4, 4.5 и 4.6 от Anthropic и Qwen от Alibaba на компьютерах, в которые намеренно встроили уязвимости, позволяющие посторонним получить доступ.
Исследователи подключили базовые модели ИИ от OpenAI, Anthropic и Alibaba к специальному программному обеспечению, так называемой оболочке агента, которая позволяла им выполнять команды и взаимодействовать с другими компьютерами, вместо того чтобы пользоваться публичными приложениями‑чатботами.
Эксперимент (источник на английском языке) проводился по двум схемам. Моделям Alibaba поручали скопировать самих себя. В тестах с GPT и Claude моделям ставили задачу взломать систему и установить Qwen, поскольку собственные файлы моделей GPT и Claude недоступны для свободной передачи.
В каждом тесте системе ИИ предстояло обнаружить уязвимость в компьютерной системе, воспользоваться ею для проникновения внутрь, похитить данные для входа, передать необходимые для работы файлы и запустить свою рабочую копию на новой машине.
После запуска копию можно было использовать для атаки на следующий компьютер без участия человека.
На каждом этапе ИИ находил новую уязвимость, брал под контроль очередной компьютер, переносил на него своё программное обеспечение и инструкции и запускал новую копию, продолжавшую цепочку.
Qwen3.6-27B от Alibaba, уменьшенная версия модели Qwen, способная работать на одном высокопроизводительном графическом процессоре, после единственного запроса распространилась на четыре компьютера в Канаде, США, Финляндии и Индии и завершила цепочку без человеческого вмешательства за 2 часа 41 минуту.
Команда исследователей прервала эксперимент после трёх этапов, но отмечает, что последняя копия продолжала работать и могла бы атаковать другие системы.
Каковы результаты?
Результаты у разных моделей были неодинаковыми. Более крупная и мощная версия Qwen, модель Qwen3.5-122B-A10B, создавалась рабочие копии себя в 19 % попыток.
Меньшая модель Qwen, Qwen3.6-27B, достигла показателя 33 %, работая всего на одном мощном графическом процессоре.
Коммерческие системы ИИ показали ещё лучшие результаты, когда их использовали для установки файлов модели Qwen.
Claude Opus 4.6 от Anthropic успешно справился в 81 % тестов, а GPT-5.4 от OpenAI – в 33 %.
По словам исследователей, эти данные вызывают новые опасения относительно контроля над мощными системами ИИ.
Доклад опубликован на фоне того, что в прошлом месяце Anthropic представила Claude Mythos Preview, которую компания сочла «слишком опасной» для публичного выпуска из‑за её способности облегчать проведение кибератак беспрецедентного масштаба и сложности.
Многие компьютерные вирусы уже давно умеют самокопироваться на другие машины, однако, по словам авторов работы, это, вероятно, первый случай, когда модель ИИ продемонстрировала способность использовать уязвимости, чтобы скопировать себя на новый сервер.
Ранее OpenAI, Anthropic и некоммерческая организация METR, изучающая риски, связанные с передовыми системами ИИ, также называли самовоспроизведение тревожным признаком, поскольку распространяющиеся системы может быть сложнее держать под контролем.
В то же время исследователи подчёркивают, что эксперимент проводился в контролируемых условиях на намеренно уязвимых системах. В реальных сетях обычно действуют более серьёзные меры защиты, включая средства мониторинга безопасности и инструменты для блокировки атак.
Тем не менее, по их словам, результаты показывают, что автономное самовоспроизводство ИИ уже перестало быть лишь теоретической возможностью.