OpenAI объявляет о неэффективности SWEbench Verified

от Людмила Шарипова

час назад

На этой неделе OpenAI сделала важное заявление, касающееся оценки возможностей искусственного интеллекта в программировании. Компания признала, что ранее используемый бенчмарк SWEbench Verified оказался неэффективным и полон недостатков, что ставит под сомнение его надежность, как отмечает источник.

Проблемы с SWEbench Verified

В своем посте OpenAI указала на серьезные проблемы с SWEbench Verified, включая утечку данных из обучающих наборов, что может искажать результаты тестирования. Это вызывает вопросы о достоверности предыдущих оценок AI-моделей, которые использовали этот бенчмарк для проверки своих возможностей в исправлении ошибок в коде.

Переход на SWEbench Pro

В ответ на выявленные недостатки OpenAI рекомендует перейти на новый бенчмарк SWEbench Pro. Этот обновленный инструмент использует более разнообразные кодовые базы и лицензии, что значительно снижает риск утечки данных. Переход на SWEbench Pro может изменить конкурентную среду среди AI-лабораторий, так как новые стандарты оценки могут привести к более точным и справедливым результатам.

На прошлой неделе Питер Штайнбергер объявил о своем присоединении к OpenAI и переходе проекта OpenClaw на фондовую структуру, что может повлиять на его развитие. Узнайте подробнее о его амбициях и планах в новости.