Подумал, что покемон был жестким эталоном для ИИ? Одна группа исследователей утверждает, что Super Mario Bros. еще жестче.
Hao AI Lab, исследовательская организация в Калифорнийском университете в Сан -Диего, в пятницу бросил ИИ в Live Super Mario Bros. Claude 3.7 от Антропика выполнил лучшее, после чего Claude 3.5. Google Gemini 1.5 Pro и Openai’s GPT-4O боролись.
Это была не та же версия Super Mario Bros., как и оригинальный релиз 1985 года, чтобы быть ясным. Игра проходила в эмуляторе и интегрировалась с рамками, GamingAgent, чтобы дать AIS контроль над Марио.
Кредиты изображения:Хао Лаборатория
GamingAgent, который HAO разработал внутреннюю, питал основные инструкции ИИ, например: «Если рядом с препятствием или врагом, двигаться/прыгать влево, чтобы уклониться» и внутриигровых скриншотов. Затем ИИ сгенерировал входы в форме кода Python для управления Mario.
Тем не менее, Хао говорит, что игра заставила каждую модель «научиться» планировать сложные маневры и разработать стратегии игрового процесса. Интересно, что лаборатория обнаружила, что так называемые модели рассуждений, такие как OPE OPEAI, которые «обдумывают» через проблемы, шаг за шагом, чтобы прийти к решениям, выполняемые хуже, чем «не заправленные» модели, несмотря на то, что они в целом сильнее по большинству тестов.
По мнению исследователей, одна из основных причин, по которым модели рассуждений имеют проблемы с играми в режиме реального времени, заключается в том, что они занимают некоторое время-обычно-для принятия решения о действиях. В Super Mario Bros. время — это все. Вторая может означать разницу между благополучно очищенным прыжком и падениями до смерти.
Игры использовались для сравнения ИИ на протяжении десятилетий. Но некоторые эксперты поставили под сомнение мудрость разведения связей между игровыми навыками ИИ и технологическим прогрессом. В отличие от реального мира, игры, как правило, являются абстрактными и относительно простыми, и они предоставляют теоретически бесконечное количество данных для обучения ИИ.
Недавние роскошные игровые тесты указывают на то, что Андрей Карпати, научный сотрудник и основатель в Openai, назвал «кризисом оценки».
«Я действительно не знаю, что [AI] Метрики, на которые нужно посмотреть прямо сейчас », — написал он в посте на X.« Tldr моя реакция: я не знаю, насколько хороши эти модели сейчас ».
По крайней мере, мы можем посмотреть, как ИИ играет в Марио.