Фонд ARC Prize, некоммерческий соучредитель известного исследователя ИИ Франсуа Чолле, объявил в посте в блоге в понедельник, что он создал новый, сложный тест для измерения общего интеллекта ведущих моделей ИИ.
До сих пор новый тест, называемый Arc-Agi-2, оторвал большинство моделей.
По данным The Arc-Pro, «рассуждения», такие как Operai’s O1-Pro и R1 Deepseek R1 от 1% до 1,3% на Arc-Agi-2. Мощные модели, не связанные с Riseising, включая GPT-4.5, Claude 3.7 Sonnet и Flash Gemini 2.0, около 1%.
Тесты Arc-Agi состоят из проблем с головоломкой, в которых ИИ должен идентифицировать визуальные закономерности из коллекции квадратов разных цветов и генерировать правильную сетку «Ответ». Проблемы были разработаны, чтобы заставить ИИ адаптироваться к новым проблемам, которого он раньше не видел.
В Фонде ARC приз за 400 человек приняли участие в базовой линии человека. В среднем «панели» этих людей получили 60% вопросов теста правильно — намного лучше, чем у любой из баллов моделей.
Образец вопроса от Arc-Agi-2 (кредит: приз ARC).
В посте на x Cholet утверждал, что Arc-Agi-2 является лучшей мерой фактического интеллекта модели ИИ, чем первая итерация теста, Arc-Agi-1. Тесты фонда ARC Prize направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки за пределами данных, на которые она была обучена.
Чолле сказал, что в отличие от Arc-Agi-1, новый тест предотвращает использование моделей ИИ на «грубой силе»-обширной вычислительной мощности-для поиска решений. Чолле ранее признал, что это был серьезный недостаток дуг-аги-1.
Чтобы рассмотреть недостатки первого теста, Arc-Agi-2 представляет новую метрику: эффективность. Это также требует моделей для интерпретации шаблонов на лету, а не полагаться на запоминание.
«Интеллект не определяется только способностью решать проблемы или достигать высоких результатов»,-написал соучредитель Arc Prize Foundation Грег Камрадт в посте в блоге. «Эффективность, с которой эти возможности приобретаются и развернуты, является важнейшим, определяющим компонентом. Основной вопрос, заданный не только», может ли AI приобрести AI [the] умение решить задачу? Но также: «При какой эффективности или стоимости?» »
Arc-Agi-1 был непобедим в течение примерно пяти лет до декабря 2024 года, когда Openai выпустила свою усовершенствованную модель рассуждений, O3, которая превзошла все остальные модели искусственного интеллекта и соответствовал эффективности человека в оценке. Однако, как мы отмечали в то время, рост производительности O3 на Arc-Agi-1 поставлялся с огромной ценностью.
Версия Openai’s O3 модели-O3 (низкий), которая была первой для достижения новой высоты на Arc-Agi-1, набрав 75,7% на тестирование, получила жалкие 4% на Arc-Agi-2, используя вычислительную мощность на сумму 200 долларов сша.
Сравнение производительности модели Frontier AI на Arc-Agi-1 и Arc-Agi-2 (кредит: приз ARC).
Прибытие Arc-Agi-2 поставляется так же, как многие в технологической индустрии призывают к новым, ненасыщенным критериям для измерения прогресса ИИ. Соучредитель Hugging Face, Томас Вольф, недавно сказал TechCrunch, что в индустрии искусственного интеллекта не хватает достаточных тестов для измерения ключевых признаков так называемого искусственного общего интеллекта, включая креативность.
Наряду с новым эталоном, фонд ARC Prize объявил о новом конкурсе ARC Prize 2025, выступив за то, чтобы разработчики достигли 85% точности на тесте ARC-AGI-2, в то же время тратя только 0,42 долл. сша на задачу.