В быстро развивающемся мире искусственного интеллекта критически важно оценивать возможности передовых моделей. Однако краудсорсинговые подходы к оценке сталкиваются с серьезной критикой.
Достоверность краудсорсинговых оценок
Привлекательность краудсорсинговых оценок ИИ заключается в том, что они позволяют получить широкий реальный взгляд на модели, выходящие за рамки внутреннего тестирования. Тем не менее, критики утверждают, что методология, лежащая в основе этих оценок, является фундаментально неверной. Эмили Бендер, профессор лингвистики в Вашингтонском университете, высказала мнение, что для валидности оценки необходимо, чтобы она измеряла что-то конкретное и имела 'конструктивную валидность'.
Этические проблемы в оценке моделей ИИ
Этические вопросы касаются не только академической валидности. Асмелаш Тека Хадгу, соучредитель AI-компании Lesan, подчеркнул, что такие платформы могут быть 'сооптированы' лабораториями ИИ для продвижения преувеличенных утверждений. Была также отмечена проблема отсутствия компенсации для добровольцев-оценщиков, что вызывает аналогии с обвинениями в эксплуатации в индустрии маркировки данных.
Предложения по улучшению оценок ИИ
Эксперты предлагают различные улучшения для будущих оценок ИИ, включая динамичные датасеты, независимую оценку и специфичность применения. Они также подчеркивают важность компенсации для оценщиков, особенно тех, кто предоставляет детализированную обратную связь. Предложенные стратегии могут помочь повысить достоверность и этическое качество оценок.
Дебаты вокруг краудсорсинговых оценок ИИ подчеркивают важность надежных и этичных методов измерения производительности моделей. Эксперты согласны, что такие методы должны быть частью более широкой стратегии оценки, которая включает разнообразные методологии и независимый надзор.