Новый тест ARC-AGI-2 представлен как значительный вызов для моделей искусственного интеллекта, проверяя их на подлинную адаптивность и эффективность.
Почему ARC-AGI-2 сложнее для ИИ моделей?
Согласно блогу Arc Prize Foundation, модели разума, такие как OpenAI’s o1-pro и DeepSeek’s R1, едва набирают от 1% до 1.3% на тесте ARC-AGI-2. Нерассуждающие модели, включая GPT-4.5 и Claude 3.7 Sonnet, также находятся на уровне около 1%. В то время как показатели людей достигают в среднем 60% точности.
Тест включает: - Задачи на визуальные загадки, где необходимо генерировать правильные сетки на основе шаблонов. - Адаптивность, требующая решения уникальных задач, с которыми модели не сталкивались в обучении. - Метрику эффективности, оценивающую не только правильность, но и способ достижению результата.
ARC-AGI-2 против ARC-AGI-1: основные изменения
Франсуа Шоллет заявил, что ARC-AGI-2 более точно измеряет истинный интеллект моделей ИИ по сравнению с предыдущей версией (ARC-AGI-1). Основное отличие заключается в отказе от избыточного использования вычислительной мощности на пользу подлинного интеллекта и эффективности. Примером служит OpenAI’s o3 (low), который демонстрировал высокие результаты на ARC-AGI-1, но значительно снизил показатели на ARC-AGI-2.
Значение нового теста для ИИ
Тест ARC-AGI-2 является своевременной инновацией. Появлялось все больше требований к созданию более достоверных и нетривиальных benchmarks для оценки прогресса ИИ, особенно в области креативности. ARC-AGI-2 активно решает выявленные недочеты, способствуя более корректной оценке способности ИИ.
Тест ARC-AGI-2 представляет собой значительный сдвиг в возможности измерения и понимания искусственного общего интеллекта, подчеркивая продолжающиеся вызовы в достижении уровня человеческого интеллекта моделями ИИ.