DeepMind утверждает, что его ИИ работает лучше, чем международная математическая олимпиада золотых призеров

Система ИИ, разработанная Google DeepMind, ведущей лаборатории ИИ Google, по -видимому, превзошла средний золотой призер в решении проблем с геометрией в международном конкурсе математики.

Система, называемая Alphageometry2, представляет собой улучшенную версию системы Alphageometry, которую DeepMind выпустила в январе прошлого года. В недавно опубликованном исследовании исследователи DeepMind, стоящие за Alphageometry2, утверждают, что их ИИ может решить 84% всех проблем с геометрией за последние 25 лет на Международной математической олимпиаде (IMO), математической конкурсе для старшеклассников.

Почему DeepMind заботится о математическом конкурсе высокого уровня? Что ж, лаборатория считает, что ключ к более способному ИИ может заключаться в обнаружении новых способов решить сложные задачи геометрии — в частности, проблемы евклидовой геометрии.

Доказательство математических теорем или логически объясняющее, почему теорема (например, теорема Пифагора) является верной, требует как рассуждения, так и способности выбирать из целого ряда возможных шагов к решению. Эти навыки решения проблем могут-если правы DeepMind-оказаться полезным компонентом будущих моделей искусственного интеллекта общего назначения.

Действительно, прошлым летом DeepMind продемонстрировала систему, которая объединила альфаггерометрию2 с Alphaproof, моделью искусственного интеллекта для формальных математических рассуждений, для решения четырех из шести задач из IMO 2024 года. В дополнение к проблемам геометрии, подобные подходы могут быть распространены на другие области математики и науки — например, для помощи в сложных инженерных расчетах.

Alphageometry2 имеет несколько основных элементов, в том числе языковая модель из семейства Gemini Gemini моделей ИИ и «символического двигателя». Модель Близнецов помогает символическому двигателю, который использует математические правила для вывода решений проблем, получает возможные доказательства для данной теоремы геометрии.

Типичная диаграмма проблемной геометрии в экзамене IMO.Кредиты изображения:Google (открывается в новом окне)

Проблемы с геометрией олимпиады основаны на диаграммах, которые необходимы «конструкции», которые должны быть добавлены до того, как они могут быть решены, такие как точки, линии или круги. Модель Близнецов Alphageometry2 предсказывает, какие конструкции могут быть полезны для добавления на диаграмму, которую двигатель ссылается на вычеты.

По сути, модель Близнецов Alphageometry2 предлагает шаги и конструкции на формальном математическом языке для двигателя, который — в соответствии с конкретными правилами — проверяет эти шаги для логической согласованности. Алгоритм поиска позволяет Alphageometry2 проводить несколько поисков решений в параллельных и сохранять, возможно, полезные результаты в общей базе знаний.

Alphageometry2 считает проблему «решить», когда она приходит к доказательству, которое сочетает в себе предложения модели Близнецов с известными принципами символического двигателя.

Из -за сложностей перевода доказательств в формат, который может понять, есть недостаток данных об использовании подготовленной геометрии. Таким образом, DeepMind создал свои собственные синтетические данные для обучения языковой модели Alphageometry2, генерируя более 300 миллионов теорем и доказательств различной сложности.

За последние 25 лет команда DeepMind выбрала 45 проблем с геометрией из соревнований IMO (с 2000 по 2024 год), включая линейные уравнения и уравнения, которые требуют движущихся геометрических объектов вокруг плоскости. Затем они «перевели» их в больший набор из 50 проблем. (По техническим причинам некоторые проблемы должны были быть разделены на два.)

Согласно статье, Alphageometry2 решил 42 из 50 задач, очистив средний балл золотого медалиста 40,9.

Конечно, есть ограничения. Техническая причуда предотвращает альфаггеометрию2 решать проблемы с переменным числом точек, нелинейных уравнений и неравенства. А альфагейометрия2 нет технически Первая система искусственного интеллекта, которая достигла производительности на уровне золота в геометрии, хотя она первой, которая достигла ее с помощью задач такого размера.

Alphageometry2 также ухудшился на другом наборе более сложных проблем IMO. Для дополнительной задачи команда DeepMind выбрала проблемы — в общей сложности 29 — которые были номинированы на экзамены IMO экспертами по математике, но еще не появились на соревнованиях. Alphageometry2 может решить только 20 из них.

Тем не менее, результаты исследования, вероятно, будут подпитывать дебаты о том, должны ли системы искусственного интеллекта построены на манипуляциях с символами, то есть манипулируя символами, которые представляют знания, используя правила-или якобы более мозговых нейронных сетей.

Alphageometry2 использует гибридный подход: его модель Близнецов имеет архитектуру нейронной сети, в то время как его символический двигатель основан на правилах.

Сторонники методов нейронной сети утверждают, что интеллектуальное поведение, от распознавания речи до генерации изображений, может возникнуть из -за огромных объемов данных и вычислений. В отличие от символических систем, которые решают задачи, определяя наборы символ-манипулирующих правил, посвященных конкретным заданиям, например, редактирование строки в программном обеспечении текстовых процессоров, нейронные сети пытаются решать задачи посредством статистического приближения и обучения на примерах.

Нейронные сети являются краеугольным камнем мощных систем ИИ, таких как модель «рассуждения» Openai O1. Но, претендующие на сторонники символического ИИ, они не все, что касается всех; Символический ИИ может быть лучше позиционирован для эффективного кодирования знаний мира, причиной их пути через сложные сценарии и «объяснить», как они достигли ответа, утверждают эти сторонники.

«Поразительно видеть контраст между продолжающимся, впечатляющим прогрессом в отношении подобных эталон, и тем временем языковые модели, в том числе более поздние« рассуждения », продолжая бороться с некоторыми простыми проблемами здравого смысла», — Винс Конитцер, Карнеги -Меллон Университетский профессор информатики, специализирующийся на искусственном интеллекте, рассказал TechCrunch. «Я не думаю, что это все дым и зеркала, но это иллюстрирует, что мы до сих пор не знаем, какое поведение ожидать от следующей системы. Эти системы, вероятно, будут очень эффективными, поэтому нам срочно нужно понять их и риски, которые они представляют намного лучше ».

Alphageometry2, возможно, демонстрирует, что два подхода — манипуляции с символом и нейронные сети — комбинированный являются многообещающим путем вперед в поиске обобщаемого ИИ. Действительно, согласно Deepmind Paper, O1, которая также имеет архитектуру нейронной сети, не может решить любую из проблем IMO, на которые Alphageometry2 смогла ответить.

Это может быть не вечно. В статье команда DeepMind заявила, что обнаружила предварительные доказательства того, что языковая модель Alphageometry2 способна создавать частичные решения проблем без помощи символического двигателя.

«[The] Результаты поддерживают идеи, что модели больших языков могут быть самодостаточными без в зависимости от внешних инструментов [like symbolic engines]- написала команда DeepMind в газете, — но пока [model] Скорость улучшается, и галлюцинации полностью разрешены, инструменты будут оставаться необходимыми для математических приложений ».