Так называемые атаки дистилляции собирают ответы ИИ‑моделей, чтобы обучать более компактные, менее ресурсоемкие модели.
По мере того как США и Китай ведут гонку за лидерство в разработке искусственного интеллекта, американская компания Anthropic стала очередной, кто бьёт тревогу: по её данным, китайские ИИ-фирмы крадут технологии, от которых может зависеть исход этой борьбы.
По утверждению Anthropic, компании DeepSeek, Moonshot AI и MiniMax втайне сгенерировали более 16 млн диалогов с её чат-ботом Claude, использовав свыше 24 тыс. фейковых аккаунтов, чтобы «выкачать» его знания и обучить собственные конкурирующие модели.
В этом месяце о похожих схемах со стороны китайских компаний заявили и OpenAI с Google, что усилило опасения: Китай может обойти годы дорогостоящих исследований в сфере ИИ.
Что такое дистилляция ИИ?
Атаки по извлечению модели (Model Extraction Attacks, MEA), более известные как «дистилляция», — это приём, при котором тот, кто имеет доступ к мощной ИИ-модели, использует её для обучения более дешёвого и быстрого аналога.
При таком подходе более крупной модели задают тысячи вопросов, собирают её ответы и на их основе обучают новую модель думать аналогичным образом.
Пользователь обращается к большой модели с запросами и использует её ответы для обучения меньшей: так её можно разработать гораздо быстрее и «за малую долю стоимости» по сравнению с тем, если бы злоумышленники выполняли всю исследовательскую работу сами, утверждают в Anthropic.
По словам американской компании, дистилляция — «легитимная» практика, когда передовые ИИ-лаборатории дистиллируют собственные модели, чтобы «создавать более компактные и дешёвые версии для клиентов».
По данным Google, такие уменьшенные модели отвечают на запросы намного быстрее и требуют меньше вычислительных ресурсов и энергии, чем исходные крупные системы.
В то же время, предупреждают в Anthropic, модели, созданные путём дистилляции, несут серьёзные риски для национальной безопасности, поскольку в них «нет необходимых защитных механизмов», которые ограничивали бы потенциально опасное применение ИИ.
В Anthropic считают, что в таких дистиллированных моделях не будет барьеров, которые мешали бы государственным и негосударственным игрокам применять ИИ для разработки биологического оружия или проведения кибератак.
Google, со своей стороны, отмечает, что для обычных пользователей ИИ-сервисов атаки дистилляции опасности не представляют, поскольку не «угрожают конфиденциальности, доступности или целостности услуг ИИ».
В феврале OpenAI заявила американским законодателям, что застала DeepSeek за попыткой тайно скопировать её самые мощные ИИ-модели, и предупредила, что китайская компания разрабатывает новые способы скрывать свои действия.
Чему хакеры учат свои модели?
По данным Anthropic, китайские ИИ-компании направляли трафик через прокси-адреса, управлявшие обширной «сетью-гидрой» — множеством поддельных аккаунтов, распределявших активность по разным площадкам, чтобы получить доступ к сервисам Anthropic, которые запрещены в Китае.
Получив доступ, компании генерировали огромные массивы запросов — либо чтобы собирать высококачественные ответы для обучения моделей, либо чтобы создавать десятки тысяч заданий для обучения с подкреплением, при котором агент учится принимать решения на основе обратной связи.
Аккаунты DeepSeek, взломавшие Claude, просили модель подробно описывать, как она обосновывает свои ответы на запросы, расписывая рассуждения по шагам; по словам Anthropic, это позволяло «массово получать обучающие данные с пояснением хода мыслей» (chain-of-thought).
Кроме того, утверждают в Anthropic, через аккаунты DeepSeek Claude использовали, чтобы «генерировать безопасные с точки зрения цензуры варианты ответов на политически чувствительные запросы» — например, вопросы об оппонентах нынешней Коммунистической партии.
Американская компания предполагает, что такие запросы обучали модели DeepSeek «уводить разговор в сторону от запрещённых тем». Это перекликается с недавним исследованием, согласно которому китайские ИИ-системы, вероятно, цензурируют те же темы, что и государственные медиа.
Кампании по дистилляции у MiniMax AI и Moonshoot AI были масштабнее, чем у DeepSeek, однако Anthropic не привела примеров того, какие именно данные эти две компании собирали через свои запросы.
Компания Google сообщила (источник на английском языке), что её чат-бот Gemini систематически используется не по назначению: его привлекают для написания кода и скриптов или для сбора информации, включая конфиденциальные данные учётных записей и адреса электронной почты.
В Anthropic утверждают, что уже внедрили механизмы, позволяющие выявлять такие кампании по мере их проведения, но подчёркивают: ни одна ИИ-компания не в силах справиться с этой проблемой в одиночку.