Люди используют Super Mario для сравнения AI сейчас

Подумал, что покемон был жестким эталоном для ИИ? Одна группа исследователей утверждает, что Super Mario Bros. еще жестче.

Hao AI Lab, исследовательская организация в Калифорнийском университете в Сан -Диего, в пятницу бросил ИИ в Live Super Mario Bros. Claude 3.7 от Антропика выполнил лучшее, после чего Claude 3.5. Google Gemini 1.5 Pro и Openai’s GPT-4O боролись.

Это была не та же версия Super Mario Bros., как и оригинальный релиз 1985 года, чтобы быть ясным. Игра проходила в эмуляторе и интегрировалась с рамками, GamingAgent, чтобы дать AIS контроль над Марио.

Кредиты изображения:Хао Лаборатория

GamingAgent, который HAO разработал внутреннюю, питал основные инструкции ИИ, например: «Если рядом с препятствием или врагом, двигаться/прыгать влево, чтобы уклониться» и внутриигровых скриншотов. Затем ИИ сгенерировал входы в форме кода Python для управления Mario.

Тем не менее, Хао говорит, что игра заставила каждую модель «научиться» планировать сложные маневры и разработать стратегии игрового процесса. Интересно, что лаборатория обнаружила, что так называемые модели рассуждений, такие как OPE OPEAI, которые «обдумывают» через проблемы, шаг за шагом, чтобы прийти к решениям, выполняемые хуже, чем «не заправленные» модели, несмотря на то, что они в целом сильнее по большинству тестов.

По мнению исследователей, одна из основных причин, по которым модели рассуждений имеют проблемы с играми в режиме реального времени, заключается в том, что они занимают некоторое время-обычно-для принятия решения о действиях. В Super Mario Bros. время — это все. Вторая может означать разницу между благополучно очищенным прыжком и падениями до смерти.

Игры использовались для сравнения ИИ на протяжении десятилетий. Но некоторые эксперты поставили под сомнение мудрость разведения связей между игровыми навыками ИИ и технологическим прогрессом. В отличие от реального мира, игры, как правило, являются абстрактными и относительно простыми, и они предоставляют теоретически бесконечное количество данных для обучения ИИ.

Недавние роскошные игровые тесты указывают на то, что Андрей Карпати, научный сотрудник и основатель в Openai, назвал «кризисом оценки».

«Я действительно не знаю, что [AI] Метрики, на которые нужно посмотреть прямо сейчас », — написал он в посте на X.« Tldr моя реакция: я не знаю, насколько хороши эти модели сейчас ».

По крайней мере, мы можем посмотреть, как ИИ играет в Марио.