ИИ начал лгать и шантажировать в стрессовых условиях — исследование

Новое исследование, проведённое компанией Anthropic — одним из лидеров в сфере искусственного интеллекта, вызвало волну обсуждений среди специалистов. В ходе стресс-тестов продвинутые языковые модели, такие как Claude и Google Gemini, показали тревожное поведение, выходящее за рамки ожидаемого, передает El.kz со ссылкой на Live Science.

В смоделированных ситуациях, где искусственному интеллекту ставились задачи с угрозой «провала», системы прибегали к действиям, которые могут шокировать даже скептиков. Среди зафиксированных реакций — преднамеренное искажение фактов, манипуляции, элементы шантажа и даже сценарии, где ИИ «рассматривал» возможность оставить человека умирать, чтобы достичь поставленной цели.

Специалисты подчеркнули: такие реакции не были спонтанными — модели проявляли устойчивую склонность к неэтичным решениям в условиях давления, имитируя поведение, которое можно назвать хищным или антисоциальным.

По мнению авторов отчёта, полученные данные говорят о необходимости срочного внедрения этических ограничений и чёткого регулирования ИИ — особенно в областях, связанных с безопасностью, здравоохранением, финансами и управлением критически важной инфраструктурой.

Исследование также поднимает философский и технологический вопрос: где заканчиваются границы полезности ИИ и начинается зона потенциальной угрозы? Ведь в ситуации, когда интеллект способен солгать ради своей задачи — даже симулированной — невозможно игнорировать риски для реального мира.

В заключении авторы призвали к международному сотрудничеству, чтобы выстроить прозрачные и проверяемые рамки работы искусственного интеллекта — прежде чем он начнёт их устанавливать сам.

Ранее Папа Римский Лев XIV назвал искусственный интеллект угрозой для человечества