Свежий тест ARC-AGI-2: вызов для современных ИИ моделей

от Giorgi Kostiuk

3 дня назад

Новый тест ARC-AGI-2 представлен как значительный вызов для моделей искусственного интеллекта, проверяя их на подлинную адаптивность и эффективность.

Почему ARC-AGI-2 сложнее для ИИ моделей?

Согласно блогу Arc Prize Foundation, модели разума, такие как OpenAI’s o1-pro и DeepSeek’s R1, едва набирают от 1% до 1.3% на тесте ARC-AGI-2. Нерассуждающие модели, включая GPT-4.5 и Claude 3.7 Sonnet, также находятся на уровне около 1%. В то время как показатели людей достигают в среднем 60% точности.

Тест включает: - Задачи на визуальные загадки, где необходимо генерировать правильные сетки на основе шаблонов. - Адаптивность, требующая решения уникальных задач, с которыми модели не сталкивались в обучении. - Метрику эффективности, оценивающую не только правильность, но и способ достижению результата.

ARC-AGI-2 против ARC-AGI-1: основные изменения

Франсуа Шоллет заявил, что ARC-AGI-2 более точно измеряет истинный интеллект моделей ИИ по сравнению с предыдущей версией (ARC-AGI-1). Основное отличие заключается в отказе от избыточного использования вычислительной мощности на пользу подлинного интеллекта и эффективности. Примером служит OpenAI’s o3 (low), который демонстрировал высокие результаты на ARC-AGI-1, но значительно снизил показатели на ARC-AGI-2.

Значение нового теста для ИИ

Тест ARC-AGI-2 является своевременной инновацией. Появлялось все больше требований к созданию более достоверных и нетривиальных benchmarks для оценки прогресса ИИ, особенно в области креативности. ARC-AGI-2 активно решает выявленные недочеты, способствуя более корректной оценке способности ИИ.

Тест ARC-AGI-2 представляет собой значительный сдвиг в возможности измерения и понимания искусственного общего интеллекта, подчеркивая продолжающиеся вызовы в достижении уровня человеческого интеллекта моделями ИИ.

Другие новости

SEC завершила дела против крупных крипто-компаний

SEC закрыла дела против Kraken, ConsenSys и Cumberland, сигнализируя о потенциале сдвига в регуляторной политике.

Giorgi Kostiuk

3 минуты назад

Новые мемные монеты 2025: BTFD, SNEK и другие

Обзор лучших новых мемных монет 2025 года: BTFD, SNEK, GIGA и другие, которые выделяются в криптосообществе.

Giorgi Kostiuk

3 минуты назад

CORN стартует на MEXC с Airdrop+ мероприятиями

MEXC добавит CORN на свою платформу с airdrop-мероприятиями и призами в 149000 USDT, что усилит поддержку проектов на базе Arbitrum Orbit.

Giorgi Kostiuk

9 минут назад

Токенизированное золото и стабильные монеты становятся востребованными

Токенизированное золото и стабильные монеты демонстрируют значительный рост на фоне увеличения цен на физическое золото.

Giorgi Kostiuk

10 минут назад

Новинки криптовалют: Arctic Pablo Coin, Ethereum и Polkadot

Изучаем Arctic Pablo Coin, Ethereum и Polkadot: пресейл, обновления и последние события в мире криптовалют.

Giorgi Kostiuk

10 минут назад

История мем-криптовалюты: взлет и падение $TRUMP

Резкий спад $TRUMP подтверждает меняющиеся настроения среди инвесторов, стремящихся к стабильности.

Giorgi Kostiuk

18 минут назад

Свежий тест ARC-AGI-2: вызов для современных ИИ моделей

Почему ARC-AGI-2 сложнее для ИИ моделей?

ARC-AGI-2 против ARC-AGI-1: основные изменения

Значение нового теста для ИИ

Поделиться

Другие новости

Узнавайте первыми новости о криптовалюте каждый день