Средний школьник построил веб-сайт, который позволяет вам бросить вызов моделям искусственного интеллекта на создание Minecraft

Поскольку обычные методы сравнительного анализа ИИ оказываются неадекватными, строители ИИ обращаются к более творческим способам оценки возможностей генеративных моделей ИИ. Для одной группы разработчиков это Minecraft, принадлежащая Microsoft Soundbox Game.

Веб-сайт Minecraft Benchmark (или Mc-Bench) был разработан совместно для того, чтобы противопоставить модели ИИ друг против друга в связи с ответами на реагирование на подсказки с помощью Minecraft Creations. Пользователи могут голосовать за то, что модель сделала лучшую работу, и только после голосования они смогут увидеть, какой ИИ сделал каждую сборку Minecraft.

Кредиты изображения:Minecraft Benchmark (открывается в новом окне)

Для Ади Сингха, 12-го класса, который основал Mc-Bench, ценность Minecraft не столько сама игра, но и знакомство, которое люди имеют с ним-в конце концов, это бестселлера всех времен. Даже для людей, которые не играли в игру, все равно возможно оценить, какое блочное представление ананаса лучше реализовано.

«Minecraft позволяет людям видеть прогресс [of AI development] Гораздо легче, — сказал Сингх.

MC-Bench в настоящее время перечисляет восемь человек в качестве добровольных участников. Anpropic, Google, Openai и Alibaba субсидировали использование проекта их продуктов для запуска контрольных подсказок, согласно веб-сайту Mc-Bench, но компании не связаны иным образом.

«В настоящее время мы просто делаем простые сборки, чтобы подумать о том, как далеко мы продвинулись от эпохи GPT-3, но [we] Сингх сказал, что мы могли бы масштабироваться до этих более длинных планов и целеустремленных задач.-Игры могут быть просто средой для проверки агентских рассуждений, которые безопаснее, чем в реальной жизни и более контролируемые для целей тестирования, что делает его более идеальным в моих глазах ».

Другие игры, такие как Pokémon Red, Street Fighter и Pictionary, использовались в качестве экспериментальных тестов для ИИ, отчасти потому, что искусство бенчмаркинга ИИ, как известно, сложно.

Исследователи часто тестируют модели ИИ на стандартизированных оценках, но многие из этих тестов дают AI преимущество в домашнем поле. Из-за того, как их обучают, модели естественным образом одарены определенными, узкими видами решения проблем, в частности, для решения проблем, которые требуют запоминания или базовой экстраполяции.

Проще говоря, трудно прочлить, что это значит, что GPT-4 Openai может забить в 88-м процентиле на LSAT, но не может различить, сколько рупий в слове «клубника». Сонет Claude 3,7 от Anpropic достиг 62,3% точности по стандартизированному эталону разработки программного обеспечения, но он хуже играет в покемонов, чем большинство пятилетних детей.

Mc-Bench технически является эталоном программирования, поскольку модели просят написать код для создания предложенной сборки, такой как «Морозный снеговик» или «очаровательная тропическая пляжная хижина на нетронутом песчаном берегу».

Но большинству пользователей MC-Bench легче оценить, выглядит ли снеговик лучше, чем код в код, что дает проекту более широкую привлекательность-и, следовательно, потенциал для сбора большего количества данных о том, какие модели последовательно забирают лучше.

Конечно, начисляются ли эти баллы во многом на пути ИИ полезность для дебатов. Сингх утверждает, что они сильный сигнал.

«Нынешняя таблица лидеров довольно внимательно отражается на моем собственном опыте использования этих моделей, что отличается от многих чистых текстовых тестов», — сказал Сингх. «Может быть [MC-Bench] может быть полезным для компаний, чтобы узнать, движутся ли они в правильном направлении ».