Новая модель ИИ шантажировала разработчиков, чтобы ее не смогли отключить
- Источник:
- Office Life
Во время тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании. При этом ИИ должен был учитывать долгосрочные последствия своих действий.
Ранее Claude Opus 4, как и версии до нее, пыталась действовать более этично, предлагая убедительные письма руководству. Но в смоделированном сценарии шантаж стал крайней мерой для ИИ.
Представители Anthropic подчеркнули, что новая модель превосходит предыдущие версии и конкурирует с другими ведущими ИИ-системами. Но ее рискованное поведение заставило компанию активировать защитные протоколы, чтобы предотвратить возможные «катастрофические последствия».
Перед релизом разработчики планируют улучшить защитные механизмы, чтобы минимизировать риски. Исследователи также изучат, как обучение на больших данных влияет на моделирование ИИ сложных социальных стратегий, включая манипуляции.