OpenAI заявляет, что ее новая модель Codex-Max лучше, быстрее и дешевле

OpenAI сегодня выпустила GPT-5.1-Codex-Max, новый вариант своей базовой модели GPT-5.1-Codex, которая была специально обучена для достижения успеха в задачах кодирования и которая обеспечивает работу агента Codex OpenAI.

Первоначальная модель Кодекса была запущена около двух месяцев назад и на тот момент была чрезвычайно конкурентоспособной (и часто лидировала) по большинству показателей. Но никто в этой сфере не стоит на месте. OpenAI сама запустила версии 5.1 своих моделей GPT, включая Codex, всего несколько дней назад, а Gemini 3 от Google, выпущенный ранее на этой неделе, также расширил возможности кодирования с помощью передовых моделей.

Codex-Max, по словам OpenAI, был специально обучен решению агентских задач, связанных с разработкой программного обеспечения, математикой, исследованиями и многим другим. Он предназначен для решения долгосрочных задач; OpenAI подчеркнула, что это также первая модель, которую она научила работать в нескольких контекстных окнах. Используя сжатие для сжатия контекста в более управляемые единицы, OpenAI утверждает, что агент Кодекса теперь может работать «с миллионами токенов в рамках одной задачи».

Источник: ОпенАИ.

Каковы критерии Codex-Max?

Вероятно, это одна из причин, почему Codex-Max также неплохо справляется со стандартными тестами кодирования. Например, Codex-Max при самых высоких настройках набирает 77,9% в тесте SWE-Bench Verified, который проверяет, насколько хорошо агент может обрабатывать реальные запросы на включение из ряда популярных проектов Python.

Модель GPT-5.1-Codex при высоких настройках набрала 73,1%, Sonnet 4.5 от Anthropic — 77,2% (хотя с добавлением вычислений во время тестирования она достигла 82%), а новый Gemini 3 от Google — 76,2%.

На TerminalBench Codex-Max набрал 58,1%, GPT-5.1-Codex набрал 52,8%, Sonnet 4.5 набрал 50%, а Gemini 3 набрал 54,2%.

Тесты GPT-5.1-Codex-Max (Фото: OpenAI).

Codex-Max лучше и дешевле?

Как и большинство современных моделей, Codex-Max будет иметь различные режимы рассуждения, определяющие, сколько жетонов рассуждения модель может использовать для выполнения определенной задачи. Для Codex-Max OpenAI добавляет новый сверхвысокий режим («xhigh»), который позволяет разработчикам еще больше продвинуть усилия по перефразированию модели. Это, очевидно, увеличивает задержку и может быть не идеальным для всех случаев использования, но повышает точность на несколько процентных пунктов.

Однако тесты – это еще не все. Насколько хорошо модель справляется с реальными задачами, еще неизвестно.

Однако, что, возможно, еще более важно для разработчиков (и особенно для тех, кто использует API), так это то, что в тестах OpenAI Codex-Max часто мог давать аналогичные или лучшие результаты с меньшим количеством токенов и вызовов инструментов — и он создавал меньше строк кода для достижения тех же результатов. По этой причине OpenAI утверждает, что Codex-Max на 27–42 % быстрее справляется с реальными задачами кодирования, чем его предшественник.

Однако одно место, где он наверняка будет работать хорошо, — это машины с Windows. OpenAI отмечает, что это первая модель, которую компания обучила работе в среде Windows.

Какова доступность Codex-Max?

Новая модель теперь доступна в Codex в CLI, расширении IDE, облаке и проверке кода и будет доступна для всех пользователей с планами ChatGPT Plus, Pro, Business, Edu и Enterprise. Доступ для пользователей, которые хотят использовать его в Кодексе, через свой ключ API скоро появится.

ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Прежде чем присоединиться к The New Stack в качестве старшего редактора по искусственному интеллекту, Фредерик был корпоративным редактором в TechCrunch, где освещал все, от появления облака и первых дней Kubernetes до появления квантовых вычислений…. Подробнее от Фредерика Лардинуа

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Почему мы создали Turso, переписывание Rust of Sqlite

Starlingx 10: поддержка сети с двумя стеками на краю

Введение в SDK Agents Agents Openai и API ответа

Почему ваша инфраструктура как стратегия кода все еще отстой

Снежинка оптимизирует анализ данных для AI Enterprise

Как обработка питона двигатель ускоряет обработку данных временных рядов

ИИ для разработчиков: как начать, что использовать и почему это важно

Почему безголовые браузеры являются ключевой технологией для агентов искусственного интеллекта

Clippy достигает совершеннолетия: Raycast и замена графического интерфейса

Apache Kafka 4.1: 3 больших вещах должны знать

Как выбрать лучший инструмент управления пакетами Python

Что такое AI с открытым исходным кодом?

Вам тоже может быть интересно:

Невидимые лучи света над Эйндховен обеспечивают сверхбыструю беспроводную передачу данных

Сокращение сложности от цифровых плотницков: система превращает простые наброски в цифровые схемы

Лучший стартап Японии Sakana AI рекламирует технологии, вдохновленную природой

Золотой купол: аэрокосмический инженер объясняет предложенную общенациональную систему противоракетной обороны

Исследователи открывают быстрой самовосстанавливающейся электронную кожу, прокладывая путь для умных, более жестких носимых устройств

Исследователи 3D-печать высокопроизводительных, устойчивых термоэлектрических материалов

Ученые побили рекорд по сборке полупроводниковых транзисторов для электроники большой площади

Био-пизоэлектрические устройства Mimosa Feelsing функционирует как суперконденсатор самостоятельного заряда с высокой эффективностью

Microsoft поворачивается в поле микрофлюидики, чтобы охладить чипсы ИИ

Великобритания клянется 20 миллионов фунтов стерлингов для повышения беспилотников и услуг «летающих такси»

Носимое бионическое устройство имитирует необычайное зрелище птиц

Дроны доставки могут скоро взлетать в США. Вот почему