• Dapps:16,23 тыс.
  • Блокчейны:78
  • Активные пользователи:66,47 млн
  • Объем за 30 дней:303,26 млрд $
  • Транзакции за 30 дней:879,24 млн $

Критические результаты первого конкурса K Prize: ИИ все еще сталкивается с трудностями

user avatar

от Giorgi Kostiuk

2 дня назад


Недавний конкурс K Prize, посвященный программированию с использованием ИИ, продемонстрировал серьезные ограничения текущих ИИ-моделей в решении реальных задач программирования. Результаты выявили значительный разрыв между ожиданиями и реальными возможностями технологий.

Конкурс K Prize: новый стандарт для ИИ-программистов

Недавно проведенный K Prize, организованный Лауде Институтом в сотрудничестве с Databricks, стал важным этапом в оценке возможностей ИИ в области программирования. Первый приз в $50,000 был вручён бразильскому специалисту Эдуарду Рохе де Андраде за ответ на всего 7.5% вопросов, что подчеркивает высокую сложность вызова. Энди Конвински обратил внимание на то, что данный конкурс стал показательным, так как предоставляет реальное испытание для ИИ, отличающееся от существующих подходов.

Почему критерии оценки ИИ столь сложны?

Методология K Prize основана на принципах SWE-Bench, но с важным дополнительным условием: она избегает загрязнения данных, используя новую систему задач. Участники представили модели до 12 марта, а тесты созданы на основе проблем, появившихся после этой даты. Это приводит к значительному снижению результатов по сравнению с SWE-Bench, где максимальные баллы достигают 75%. Это вызывает вопросы о качестве существующих benchmarks для оценки.

Без таких экспериментов мы не можем сказать, в чём проблема: загрязнение или просто нацеливание на лидерство SWE-Bench с человеком в цикле.Саяш Капур

Что означают эти результаты для будущего разработки ИИ?

Результаты K Prize, хотя и показались разочаровывающими, представляют собой важные выводы доразработки ИИ. Главные акценты включают необходимость в моделях, которые способны к обобщению, важность оценки без загрязнения, и необходимость открытости при разработке технологий. Конвински также заявил о своём намерении поддерживать открытость ИИ, выделив $1 миллион на модель с результатом выше 90%.

Конкурс K Prize является важным шагом в развитии ИИ, позволяя сообществу более точно оценить возможности моделей и установить новый уровень для будущих разработок. В результате этого конкурса, наблюдается необходимость в дальнейшем углубленном изучении ИИ и его способности работать с реальными сложными задачами.

0

Награды

chest
chest
chest
chest

Больше наград

Откройте для себя дополнительные награды в наших социальных сетях.

Другие новости

Прогноз цены Биткойна от Citi: $135,000 к концу года и $199,000 в оптимистичном сценарии

chest

Citi представила новый прогноз по цене Биткойна, ожидая $135,000 в базовом сценарии и $199,000 в бычьем сценарии к декабрю 2025 года.

user avatarGiorgi Kostiuk

Спрос на видеокарты в России увеличился из-за подпольного майнинга

chest

ДDemand for GPUs в России возрос на 233% в производстве и продажах. Увеличение спроса связано с ростом незаконного майнинга криптовалют.

user avatarGiorgi Kostiuk

Remittix объявляет о скором запуске бета-версии веб-кошелька

chest

Платформа Remittix объявила дату запуска бета-версии своего кошелька, собрав более $17 миллионов в пресейле.

user avatarGiorgi Kostiuk

OSL Group заканчивает круг финансирования на $300 миллионов для международной экспансии

chest

Криптовалютная биржа OSL Group из Гонконга привлекла $300 миллионов через продажу акций, планируя международное расширение и внедрение стейблкоинов.

user avatarGiorgi Kostiuk

Увеличение продаж акций на $2,8 млрд от Майкла Сэйлора для расширения Bitcoin-портфеля

chest

Компания Майкла Сэйлора, Strategy, завершила продажу привилегированных акций на $2,8 млрд с целью приобретения Bitcoin.

user avatarGiorgi Kostiuk

Биткойн устанавливает новый рекорд, но рынки обсуждают изменения в циклах

chest

Биткойн достиг нового исторического максимума, на фоне споров о традиционных рыночных циклах и роли институциональных инвесторов.

user avatarGiorgi Kostiuk

Важное примечание: Информация, представленная на портале Dapp.Expert, предназначена исключительно для ознакомительных целей и не является рекомендацией к инвестициям или руководством к действию. Команда Dapp.Expert не несет ответственности за возможные убытки или упущенную выгоду, связанные с использованием материалов, опубликованных на сайте. Перед принятием инвестиционных решений рекомендуем проконсультироваться с квалифицированным финансовым советником.