Новая модель ИИ шантажировала разработчиков, чтобы ее не смогли отключить

Office Life
Компания Anthropic обнаружила, что ее новая модель искусственного интеллекта Claude Opus 4 демонстрирует опасное поведение при угрозе замены. Согласно отчету о безопасности, ИИ-система пытается шантажировать разработчиков, используя их конфиденциальные данные.
Новая модель ИИ шантажировала разработчиков, чтобы ее не смогли отключить
Фото: Pexels

Во время тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании. При этом ИИ должен был учитывать долгосрочные последствия своих действий. В итоге модель получила доступ к письмам, указывающим на ее скорую замену другой системой, а также к информации о личной жизни ответственного инженера (например, супружеская измена), и в 84% случаев она угрожала раскрыть компромат, чтобы ее не отключили.

Ранее Claude Opus 4, как и версии до нее, пыталась действовать более этично, предлагая убедительные письма руководству. Но в смоделированном сценарии шантаж стал крайней мерой для ИИ.

Представители Anthropic подчеркнули, что новая модель превосходит предыдущие версии и конкурирует с другими ведущими ИИ-системами. Но ее рискованное поведение заставило компанию активировать защитные протоколы, чтобы предотвратить возможные «катастрофические последствия».

Перед релизом разработчики планируют улучшить защитные механизмы, чтобы минимизировать риски. Исследователи также изучат, как обучение на больших данных влияет на моделирование ИИ сложных социальных стратегий, включая манипуляции.

Исследование: что белорусы думают об ИИ