Лежал ли Xai о тестах Grok 3?

Дебаты по сравнению с ИИ — и о том, как их сообщают лаборатории ИИ — распространяются на публичное представление.

На этой неделе сотрудник Openai обвинил компанию Elon Musk AI, XAI, в публикации вводящих в заблуждение результатов для своей последней модели искусственного интеллекта, Grok 3. Один из соучредителей Xai, Igor Babushkin, настаивал на том, что компания была в праве.

Истина находится где -то посередине.

В посте, посвященном блогу Xai, компания опубликовала график, показывающий выступление Grok 3 на AIME 2025, коллекцию сложных математических вопросов с недавнего экзамена по приглашению по математике. Некоторые эксперты подвергли сомнению достоверность AIME в качестве эталона ИИ. Тем не менее, AIME 2025 и более старые версии теста обычно используются для исследования математической способности модели.

График Xai показал два варианта MINI GROK 3, Grok 3 Soucting Beta и Grok 3 Mini, избивая лучшую доступную модель Openai, на A3-Mini, на Aime 2025. Но сотрудники Openai на x быстро указали, что на графике Xai на графике Xai на графике Xai. Не включал в себя оценку AIME 2025 O3-Mini-High в «Минус@64».

Что такое минуса@64, спросите вы? Что ж, это недолго для «Консенсуса@64», и в основном он дает модель 64, пытаясь ответить на каждую проблему в эталоне и принимает ответы, сгенерированные чаще всего в качестве окончательных ответов. Как вы можете себе представить, минусы@64 имеют тенденцию к тому, чтобы показатели моделей были немного повысить оценки моделей, и исключение его на графике может показаться, что одна модель превосходит другую, когда в действительности это не так.

Grok 3 рассуждения Beta и Grok 3 Mini Soidings за Aime 2025 в «@1»-это означает, что первая оценка модели получили на эталоне-падают ниже оценки O3-Mini-High. Grok 3 Daseing Beta также станет очень легким за моделью Ope O1, установленной для «средних» вычислений. И все же Xai рекламирует Grok 3 как «самый умный в мире искусственный ИИ».

В X Babushkin утверждался, что Openai в прошлом опубликовал аналогичные вводящие в заблуждение эталонные диаграммы — хотя и в чартах, сравнивая производительность своих собственных моделей. Более нейтральная вечеринка в дебатах составила более «точный» график, показывающий практически каждую модель в минусе@64:

Но, как указал исследователь ИИ Натан Ламберт в посте, возможно, самая важная метрика остается загадкой: вычислительная (и денежная) стоимость, которую она потребовала для каждой модели, чтобы достичь своей лучшей оценки. Это просто показывает, как мало большинства тестов ИИ сообщают об ограничениях моделей — и их сильных сторонах.