Недавно более 40 ведущих специалистов в области искусственного интеллекта из компаний OpenAI, DeepMind, Google, Anthropic и Meta опубликовали работу, посвященную инструменту безопасности под названием chain-of-thought monitoring. Этот инструмент обещает сделать ИИ более безопасным, следя за процессом принятия решений ИИ.
Что такое chain-of-thought monitoring?
Представленный в статье инструмент chain-of-thought monitoring позволяет разработчикам отслеживать цепочку размышлений ИИ, разбивая задачи на более мелкие шаги и комментируя каждый из них на простом языке. Основная цель заключается в том, чтобы выявлять опасные или некорректные решения в момент их возникновения.
> *«Системы ИИ, которые «думают» на человеческом языке, предлагают уникальную возможность для безопасности искусственного интеллекта: мы можем отслеживать их цепочки размышлений (CoT) в поисках намерения нарушить нормы», — говорится в статье.*
Проблемы и риски в цепочке размышлений ИИ
Исследование также подчеркивает, что прозрачность в процессе размышлений может исчезнуть, если обучение будет сосредоточено только на конечном результате. Разработчики рекомендуют регулярно проверять, сколько из размышлений ИИ остается видимым на каждом этапе работы. Это стало критически важным условием для обеспечения безопасности моделей.
По словам соучредителя Anthropic Джека Кларка, "богатые интроспективные следы будут необходимы для оценки моделей в областях с высокой степенью риска, включая биотехнологические исследования".
Будущее мониторинга цепочки размышлений ИИ
Несмотря на улучшение понимания и производительности моделей, анализ их развернутого мышления обнаружил несоответствия, когда финальный ответ ИИ не совпадал с процессом принятия решений. Исследователи отмечают, что цепочка размышлений ИИ может стать ценным источником информации, даже если она иногда ведет к ошибкам.
Сидни фон Аркс из METR предложила повод для оптимизма, отметив: "Мы должны относиться к цепочке размышлений так, как это может делать военное руководство с перехваченными радиопередачами врага..."
Команда исследователей подчеркнула важность мониторинга цепочки размышлений ИИ, который служит не только для обнаружения ошибок, но и как средство для повышения доверия к технологиям. Это открывает новые горизонты в области разработки безопасного и надежного искусственного интеллекта.