Anthropic раскрывает промышленное воровство ИИ: китайские фирмы использовали 16 миллионов запросов к Claude
Автор: Евгений Падежнов
Anthropic раскрыла скоординированные кампании трёх китайских лабораторий ИИ по извлечению возможностей Claude мошенническими способами. Масштаб раскрывает систематические усилия по обходу мер безопасности и региональных ограничений при краже проприетарных знаний ИИ.
Масштаб кражи ИИ-моделей
По данным Anthropic, DeepSeek, Moonshot AI и MiniMax сгенерировали более 16 миллионов обменов с Claude через примерно 24 000 мошеннических аккаунтов. Каждая лаборатория нацеливалась на конкретные возможности:
- MiniMax лидировал с 13 миллионами обменов, сосредоточенных на агентном программировании и оркестрации инструментов
- Moonshot AI провела 3,4 миллиона обменов, нацеленных на агентное рассуждение, использование инструментов и компьютерное зрение
- DeepSeek выполнил более 150 000 обменов для извлечения способностей к рассуждению
Скоординированный характер становится очевидным через общую инфраструктуру. Как сообщает TheHackerNews, лаборатории использовали архитектуры «гидра-кластеров» — разветвлённые сети мошеннических аккаунтов, распределённых по API и облачным платформам. Одна прокси-сеть управляла более чем 20 000 мошеннических аккаунтов одновременно.
Как работают атаки дистилляции
Дистилляция знаний традиционно служит законным целям. Компании ИИ регулярно дистиллируют свои собственные модели для создания меньших, эффективных версий. Техника включает обучение более слабой модели на выходных данных более способной системы.
Эти атаки превращают процесс в оружие. Подход DeepSeek сосредоточился на извлечении цепочки рассуждений. Лаборатория создавала запросы, просящие Claude «артикулировать внутренние рассуждения за завершёнными ответами шаг за шагом», генерируя высококачественные обучающие данные в масштабе.
Распространённая ошибка: рассматривать лимиты скорости API как достаточную защиту. Изощрённые атакующие распределяют запросы по тысячам аккаунтов и прокси-сетей, уклоняясь от стандартных методов обнаружения.
Методы обнаружения и атрибуции
Anthropic атрибутировала каждую кампанию «с высокой степенью уверенности» через множественные индикаторы:
- Корреляция IP-адресов, раскрывающая общую инфраструктуру
- Метаданные запросов, показывающие скоординированные паттерны
- Платёжные методы, связывающие мошеннические аккаунты
- Подтверждение отраслевых партнёров, наблюдающих тех же актёров
Ключевой момент: поведение MiniMax демонстрировало адаптацию в реальном времени. Когда Anthropic выпустила новую модель Claude, MiniMax «развернулся в течение 24 часов, перенаправив почти половину своего трафика» на обновлённую версию.
Последствия для национальной безопасности
Удаление защитных ограждений представляет наибольшую озабоченность. Anthropic предупреждает, что «модели, построенные через незаконную дистилляцию, вряд ли сохранят меры безопасности», потенциально позволяя:
- Наступательные кибероперации
- Дезинформационные кампании в масштабе
- Системы массовой слежки
- Военные применения без этических ограничений
CNBC сообщает, что Anthropic отметила доказательства дистилляции китайскими фирмами с начала прошлого года, совпадающие с первым запуском модели DeepSeek.
Реакция индустрии и контрмеры
Anthropic развернула множественные защитные стратегии:
- Новые поведенческие системы обнаружения, идентифицирующие аномальные паттерны использования
- Усиленные процессы верификации аккаунтов
- Обмен разведданными с отраслевыми коллегами и властями
- Защитные меры на уровне продукта и API, снижающие эффективность дистилляции
Проверенный подход: корреляция паттернов трафика между провайдерами. Множественные компании ИИ теперь делятся разведданными об угрозах для идентификации скоординированных кампаний, нацеленных на множественные модели одновременно.
Преимущество в стоимости движет этими атаками. Дистилляция позволяет конкурирующим фирмам «приобретать мощные возможности от других лабораторий за долю времени и за долю стоимости» по сравнению с независимой разработкой.
Взгляд в будущее
Региональные ограничения доступа существуют по причинам, выходящим за рамки коммерческой конкуренции. Все три целевые лаборатории работают из Китая, где Anthropic запрещает использование сервиса из-за «правовых, регуляторных и рисков безопасности».
На практике предотвращение полного извлечения модели остаётся невозможным. Фундаментальная природа API ИИ — предоставление полезных выходных данных — создаёт внутреннюю уязвимость. Защита сосредоточена на повышении затрат и снижении качества извлечённых возможностей.
Если это работает — это правильно. Индустрия теперь признаёт атаки дистилляции как постоянную угрозу, требующую непрерывной адаптации. Лаборатории ИИ должны балансировать доступность для законных пользователей против изощрённых кампаний извлечения.
Часто задаваемые вопросы
Как компании используют мошеннические аккаунты и прокси-сервисы для обхода систем обнаружения API в масштабе?
Атакующие используют архитектуры «гидра-кластеров» с тысячами аккаунтов, распределённых по множественным облачным платформам и прокси-сетям. Одна обнаруженная сеть управляла более чем 20 000 мошеннических аккаунтов одновременно, маршрутизируя запросы через коммерческие прокси-сервисы для маскировки происхождения и уклонения от лимитов скорости.
Какие конкретные промпты и техники используются для извлечения трасс рассуждения и агентных возможностей из передовых моделей?
DeepSeek специализировался на извлечении цепочки рассуждений, создавая промпты, которые просили Claude «артикулировать внутренние рассуждения за завершёнными ответами шаг за шагом». Moonshot позже пытался «извлечь и реконструировать трассы рассуждения Claude», нацеливаясь на агентное рассуждение, использование инструментов и возможности компьютерного зрения.
Как провайдеры API могут различать законное использование с высоким объёмом и скоординированные атаки дистилляции в их паттернах трафика?
Обнаружение опирается на множественные сигналы: синхронизированные паттерны трафика, общие методы оплаты, скоординированное время между аккаунтами и быстрое переключение поведения при выпуске новых моделей. Немедленное перенаправление трафика MiniMax в течение 24 часов после выпуска новых моделей иллюстрировало подозрительные паттерны адаптации.
Какие технические индикаторы раскрывают проведение кампании дистилляции, и как они распределяются между лабораториями ИИ?
Ключевые индикаторы включают корреляцию IP-адресов, паттерны метаданных запросов, отпечатки инфраструктуры и поведенческие аномалии. Компании ИИ теперь делятся разведданными об угрозах через отраслевые партнёрства, позволяя подтверждение актёров, нацеленных на множественных провайдеров одновременно.
Насколько быстро конкуренты могут развернуть свою стратегию дистилляции, когда целевая модель выпускает новую версию?
MiniMax продемонстрировал удивительно быструю адаптацию — в течение 24 часов после выпуска новой модели Claude они перенаправили почти половину своего трафика на целевую обновлённую версию. Эта скорость указывает на изощрённые системы мониторинга и автоматизированную инфраструктуру, способную к немедленным стратегическим сдвигам.
Источники:
- Anthropic: Detecting and preventing distillation attacks
- TheHackerNews: Anthropic Says Chinese AI Firms Used 16 Million Claude Queries
- CNBC: Anthropic joins OpenAI in flagging 'industrial-scale' distillation campaigns