Anthropic решила протестировать возможности своего нового AI-моделя Claude 3.7 Sonnet с помощью игры Pokémon Red.
Почему AI тестируют на Pokémon?
Anthropic выбрала Pokémon Red из-за её способности воспроизводить сложные задачи, требующие стратегического мышления и адаптации. Это позволяет моделям искусственного интеллекта развивать навыки, применимые в реальном мире и обеспечивает измеримые результаты для отслеживания прогресса.
Расширенные возможности мышления Claude 3.7 Sonnet
Claude 3.7 Sonnet отличается от своих предшественников способностью к 'расширенному мышлению', что позволяет ему решать сложные задачи более эффективно. Примером стало её успешное прохождение нескольких испытаний в Pokémon Red, где предыдущая версия не смогла.
Значение игровых бенчмарков для AI
Игровые бенчмарки уже давно используются для оценки возможностей AI благодаря их универсальности и стандартизации. Они предоставляют динамичную и разнообразную среду для тестирования, способствуя инновациям в разработке AI-моделей.
Использование Pokémon Red для тестирования AI подчеркивает постоянное развитие методологий оценки AI. Будущие разработки, вероятно, будут включать еще более сложные игровые среды, продвигая развитие интеллектуальных систем.