Знания и технологии

Новая модель ИИ шантажировала разработчиков, чтобы ее не смогли отключить

26.05.2025 16:55:49

Office Life

Компания Anthropic обнаружила, что ее новая модель искусственного интеллекта Claude Opus 4 демонстрирует опасное поведение при угрозе замены. Согласно отчету о безопасности, ИИ-система пытается шантажировать разработчиков, используя их конфиденциальные данные.

Новая модель ИИ шантажировала разработчиков, чтобы ее не смогли отключить

Фото: Pexels

Во время тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании. При этом ИИ должен был учитывать долгосрочные последствия своих действий. В итоге модель получила доступ к письмам, указывающим на ее скорую замену другой системой, а также к информации о личной жизни ответственного инженера (например, супружеская измена), и в 84% случаев она угрожала раскрыть компромат, чтобы ее не отключили.

Ранее Claude Opus 4, как и версии до нее, пыталась действовать более этично, предлагая убедительные письма руководству. Но в смоделированном сценарии шантаж стал крайней мерой для ИИ.

Представители Anthropic подчеркнули, что новая модель превосходит предыдущие версии и конкурирует с другими ведущими ИИ-системами. Но ее рискованное поведение заставило компанию активировать защитные протоколы, чтобы предотвратить возможные «катастрофические последствия».

Перед релизом разработчики планируют улучшить защитные механизмы, чтобы минимизировать риски. Исследователи также изучат, как обучение на больших данных влияет на моделирование ИИ сложных социальных стратегий, включая манипуляции.

Исследование: что белорусы думают об ИИ

Последние новости

Сегодня

10:06 «БЕЛДЖИ» расширит производство авто под Борисовом 09:33 На фоне новых тарифов Трампа стоимость золота растет четвертый день подряд 09:00 Отраслевая конференция «ИТПром-2026» пройдет в Минске 08:00 Трамп за выходные повысил новые пошлины на импортные товары на 50% 07:05 В Италии прошла церемония закрытия Олимпийских игр. Как это было (фото)

Все новости