Каждое воскресенье хозяин NPR Will Shortz, кроссворд New York Times ‘Cross Wuzzle, проходит для викторины тысяч слушателей в долгосрочном сегменте под названием The Sunday Puzzle. В то время как написано, чтобы быть решаемым без слишком Большое предвидение, хриплые, как правило, бросают вызов даже для квалифицированных участников.
Вот почему некоторые эксперты считают, что они являются многообещающим способом проверить границы способностей ИИ по решению проблем.
В новом исследовании команда исследователей, родом из колледжа Уэллсли, Оберлин -колледж, Техасский университет в Остине, Северо -Восточный университет, и стартап курсор создал эталон ИИ с использованием загадков из воскресных эпизодов головоломки. Команда говорит, что их тест раскрывает удивительные идеи, подобные так называемым моделям рассуждений-O1 Openai, среди прочего-иногда «сдаваться» и предоставлять ответы, которые они знают, не верны.
«Мы хотели разработать контрольный показатель с проблемами, которые люди могут понять с общими знаниями»,-сказал TechCrunch Арджун Гуха, бакалавриат по информатике на северо-востоке и один из соавторов исследования.
В настоящее время индустрия ИИ в настоящее время находится в сфере сравнительного анализа. Большинство тестов, обычно используемых для оценки моделей искусственного интеллекта для навыков, таких как компетентность по вопросам математики и науки на уровне PhD, которые не имеют отношения к среднему пользователю. Между тем, многие тесты — даже тесты, выпущенные относительно недавно — быстро приближаются к точке насыщения.
Преимущества общественной радиопрограммы, такой как The Sunday Puzzle, состоит в том, что она не тестирует на эзотерические знания, а проблемы сформулированы так, что модели не могут опираться на «Rote Memory», чтобы решить их, объяснил Гуха.
«Я думаю, что затрудняет эти проблемы, так это то, что действительно сложно добиться значимого прогресса по проблеме, пока вы не решите ее — тогда все нажимает вместе все сразу», — сказал Гуха. «Это требует комбинации понимания и процесса устранения».
Конечно, ни один эталон не идеален. Воскресная головоломка ориентирована на US и только английский. И поскольку викторины публично доступны, возможно, что модели обучались на них и могут «обмануть» в некотором смысле, хотя Гуха говорит, что не видел доказательств этого.
«Новые вопросы выпускаются каждую неделю, и мы можем ожидать, что последние вопросы будут действительно невидимыми», — добавил он. «Мы намерены сохранить бланк свежей и отслеживать, как изменяется производительность модели с течением времени».
На эталоне исследователей, который состоит из примерно 600 загадков воскресных головоломок, моделей рассуждений, таких как O1 и Diepseek R1, намного превосходят остальные. Рассудить модели тщательно проверить факты, прежде чем выдавать результаты, что помогает им избежать некоторых ловушек, которые обычно отключают модели ИИ. Компромисс заключается в том, что модели рассуждений занимают немного больше времени, чтобы прийти к решениям-как правило, до минуты дольше.
По крайней мере, одна модель, Deepseek’s R1, дает решения, которые, как он знает, не так для некоторых воскресных вопросов головоломки. R1 будет утверждать дословно «я сдаюсь», за которым следует неправильный ответ, выбранного, казалось бы, случайным образом — поведение, к которому этот человек, безусловно, может относиться.
Модели делают другие странные варианты, например, дать неправильный ответ только для того, чтобы немедленно отозвать его, попытаться выявить лучшего и снова потерпеть неудачу. Они также застряли «мышление» навсегда и дают бессмысленные объяснения для ответов, или они сразу же приходят к правильному ответу, но затем продолжают рассмотреть альтернативные ответы без очевидной причины.
«Что касается жестких проблем, R1 буквально говорит, что он становится« разочарованным », — сказал Гуха. «Было забавно видеть, как модель эмулирует то, что может сказать человек. Еще неизвестно, как «разочарование» в рассуждениях может повлиять на качество результатов модели ».
Текущая модель наиболее эффективной работы на тесте составляет O1 с баллом 59%, за которым следует недавно выпущенный O3-Mini, установленный для высоких «усилий по рассуждениям» (47%). (R1 набрал 35%.) В качестве следующего шага исследователи планируют расширить свои тестирование на дополнительные модели рассуждений, которые, как они надеются, помогут определить области, где эти модели могут быть улучшены.
«Вам не нужна докторская степень, чтобы быть хорошим в рассуждениях, поэтому должно быть возможно разработать контрольные показатели, которые не требуют знаний на уровне доктора наук»,-сказал Гуха. «Стандарт с более широким доступом позволяет более широкому набору исследователей понимать и проанализировать результаты, что, в свою очередь, может привести к лучшим решениям в будущем. Кроме того, поскольку современные модели все чаще развернуты в условиях, которые влияют на всех, мы считаем, что каждый должен иметь возможность интуитивно интуитивно интуитивно-то, на что это модели, а не способны ».