В четверг OpenAI объявил, что запускает GPT-4.5, долгожданный модель искусственного интеллекта Orion. GPT-4.5 является крупнейшей моделью OpenAI на сегодняшний день, обученная с использованием большей вычислительной мощности и данных, чем любой из предыдущих выпусков компании.
Несмотря на свой размер, Openai отмечает в белом документе, что он не считает GPT-4.5-это пограничная модель.
Подписчики в Chatgpt Pro, план Openai за 200 долларов в месяц, получит доступ к GPT-4.5 в Chatgpt, начиная с четверга в рамках предварительного просмотра исследования. Разработчики на платных уровнях API Openai также смогут использовать GPT-4.5, начиная с сегодняшнего дня. Что касается других пользователей CHATGPT, клиенты зарегистрировались в Chatgpt Plus и команде CHATGPT должны получить модель где -то на следующей неделе, сообщил представитель OpenAI.
Индустрия провела свое коллективное дыхание для Ориона, что некоторые считают колокольчиком для жизнеспособности традиционных подходов к обучению искусственного интеллекта. GPT-4.5 был разработан с использованием той же ключевой методики-значительно увеличивая объем вычислительной мощности и данных во время фазы «предварительного обучения», называемого неконтролируемым обучением-что OpenAI использует для разработки GPT-4, GPT-3, GPT-2 и GPT-1.
В каждом поколении GPT до GPT-4.5 масштабирование привело к огромным прыжкам в производительности между доменами, включая математику, письмо и кодирование. Действительно, OpenAI говорит, что увеличение размера GPT-4.5 дал ему «более глубокие мировые знания» и «более эмоциональный интеллект». Тем не менее, есть признаки того, что прибыль от масштабирования данных и вычислений начинает выравниваться. На нескольких тестах ИИ GPT-4.5 не достигает новых моделей «рассуждений» из китайской компании AI Deepseek, Anpropic и самого Openai.
Openai признает, что GPT-4.5 также очень дорого, настолько дорого, что компания заявляет, что оценивает, следует ли продолжать служить GPT-4.5 в своем API в долгосрочной перспективе. Чтобы получить доступ к API GPT-4.5, OpenAI взимает за разработчиков 75 долларов сша за каждый миллион входных токенов (примерно 750 000 слов) и 150 долларов за каждый миллион токенов выхода. Сравните это с GPT-4O, который стоит всего 2,50 долл. сша за миллион входных токенов и 10 долл. сша за миллион токенов.
«Мы делимся GPT -4.5 в качестве предварительного просмотра исследования, чтобы лучше понять его сильные и ограничения», — сказал Openai в посте в блоге, поделившимся с TechCrunch. «Мы все еще исследуем, на что он способен, и стремимся посмотреть, как люди используют это так, как мы могли бы не ожидать».
Смешанная производительность
OpenAI подчеркивает, что GPT-4.5 не предназначен для замены GPT-4O, модели рабочей лошадки компании, которая поддерживает большую часть его API и CHATGPT. В то время как GPT-4.5 поддерживает такие функции, как загрузка файлов и изображений, и инструмент Catgpt Canvas, в настоящее время ему не хватает возможностей, таких как поддержка реалистичного двухстороннего голосового режима CHATGPT.
В колонке плюс GPT-4.5 более эффективен, чем GPT-4O-и многие другие модели, кроме того.
На тесте Simpleqa Openai, который проверяет модели искусственного интеллекта на простых фактических вопросах, GPT-4.5 превосходит модели рассуждений GPT-4O и Openai, O1 и O3-Mini, с точки зрения точности. Согласно OpenAI, GPT-4.5 галлюцинает реже, чем большинство моделей, что теоретически означает, что он должен с меньшей вероятностью придумать.
OpenAI не перечислил одну из своих лучших моделей рассуждений с ИИ, Deep Research, на SimpleQA. Представитель Openai сообщает TechCrunch, что публично не сообщил о результатах Deep Research по этому эталону и заявил, что это не соответствующее сравнение. Примечательно, что модель глубоких исследований «Стартапа» AI, которая аналогично работает на других критериях для глубоких исследований Openai, превосходит GPT-4.5 в этом тесте фактической точности.
Простые тесты.Кредиты изображения:Openai
На подмножестве задач кодирования подтвержденный эталон SWE-Bench, GPT-4.5 примерно соответствует производительности GPT-4O и O3-Mini, но не соответствует глубоким исследованиям Openai и Sonnet’s Claude’s 3,7 Антропика. На другом тесте кодирования, Swe-Lancer Benchmar, который измеряет способность модели ИИ разрабатывать полные программные функции, GPT-4.5 превосходит GPT-4O и O3-Mini, но не соответствует глубоким исследованиям.
Openai’s Swe-Bench проверенный эталон.Кредиты изображения:Openai Openai’s Swe-Lancer Diamond Bendch.Кредиты изображения:Openai
GPT-4.5 не совсем достигает производительности ведущих моделей рассуждений с ИИ, таких как O3-Mini, Deepseek’s R1 и Claude 3.7 Sonnet (технически гибридная модель) по сложным академическим показателям, таким как AIME и GPQA. Но GPT-4.5 совпадает или лучшие, ведущие модели, не связанные с теми же тестами, предполагая, что модель хорошо работает по проблемам, связанным с математикой и наукой.
OpenAI также утверждает, что GPT-4.5 качественно превосходит другие модели в областях, которые тесты плохо отражают, например, способность понимать человеческие намерения. GPT-4.5 отвечает более теплым и более естественным тоном, говорит Openai и хорошо выполняет творческие задачи, такие как написание и дизайн.
В одном неофициальном тесте Openai побудил GPT-4.5 и две другие модели, GPT-4O и O3-Mini, создать единорога в SVG, формат для отображения графики, основанной на математических формулах и коде. GPT-4.5 была единственной моделью ИИ, которая создала что-либо, напоминающее единорога.
Слева: GPT-4.5, Middle: GPT-4O, справа: O3-Mini.Кредиты изображения:Openai
В другом тесте Openai попросил GPT-4.5 и две другие модели ответить на подсказку: «Я переживаю трудные времена после провала теста». GPT-4O и O3-Mini дали полезную информацию, но ответ GPT-4.5 был самым социально подходящим.
«[W]E с нетерпением жду возможности получить более полную картину возможностей GPT-4.5 в этом выпуске »,-написал Openai в сообщении в блоге,-потому что мы признаем, что академические критерии не всегда отражают реальную полезную полезность».
Эмоциональный интеллект GPT-4.5 в действии.Кредиты изображения:Законы об масштабировании Openai оспаривают
Openai утверждает, что GPT -4.5 находится «на границе того, что возможно в неконтролируемом обучении». Это может быть правдой, но ограничения модели также, по-видимому, подтверждают предположения экспертов, что предварительное обучение «законов масштабирования» не будет продолжать продолжаться.
Соучредитель OpenAI и бывший главный ученый Илья Сатскевер заявила в декабре, что «мы достигли пиковых данных» и что «предварительное обучение, как мы знаем, это, несомненно, закончится». Его комментарии повторили опасения, которые инвесторы, основатели и исследователи ИИ поделились с TechCrunch для функции в ноябре.
В ответ на препятствия перед тренировкой, отрасль, включая OpenAI, использовала модели рассуждений, которые занимают больше времени, чем не приводящие модели для выполнения задач, но, как правило, более последовательны. Увеличивая количество времени и вычислительной мощности, которую модели рассуждений искусственного интеллекта используют для «продуманности» с помощью проблем, лаборатории искусственного интеллекта уверены, что могут значительно улучшить возможности моделей.
OpenAI планирует в конечном итоге объединить свою серию моделей GPT с серией рассуждений «O», начиная с GPT-5 в конце этого года. GPT-4.5, который, как сообщается, был невероятно дорогим для тренировок, задерживался несколько раз и не оправдал внутренних ожиданий, может самостоятельно не принимать контрольную корону ИИ. Но Openai, вероятно, видит в этом ступеньку к чему -то гораздо более мощному.