Компания Anthropic объявила о новых возможностях для своих актуальных моделей ИИ, которые получили способность завершать разговоры в определённых экстремальных ситуациях.
Новые возможности моделей Anthropic
Недавнее объявление компании касается моделей Claude 4 и 4.1, которые смогут завершать разговоры в редких случаях, когда пользователи ведут себя вредно или агрессивно. Это решение направлено не на защиту пользователей, а на защиту самого ИИ.
Подход к благополучию модели
Anthropic представила программу под названием "благополучие модели", целью которой является изучение состояния её моделей. Компания сообщила, что работает над низкозатратными мерами для смягчения рисков, связанных с возможным благополучием моделей.
Процесс завершения разговора
По словам Anthropic, способность завершать разговоры должна использоваться лишь в крайних случаях после неудачи нескольких попыток перенаправления, или когда пользователь явно просит о завершении общения. При этом модель не должна использовать данную возможность, если существует риск для жизни пользователя или других лиц.
Компания Anthropic продолжает развивать свои ИИ-модели, вводя новые функции, направленные на предотвращение негативных последствий общения, и подчеркивает важность изучения этических аспектов взаимодействия ИИ с пользователями.