Новый Claude Opus 4.5 от Anthropic возвращает себе корону кодирования

Сегодня Anthropic выпустила последнюю версию своей флагманской модели Opus: Opus 4.5.

Компания называет ее своей самой интеллектуальной моделью и отмечает, что она особенно сильна в решении задач кодирования, отобрав корону у OpenAI GPT-5.1-Codex-Max и модели Gemini 3 от Google недельной давности с показателем точности, подтвержденным SWE-Bench, равным 80,9%.

Компания также делает Opus 4.5 значительно более доступным в использовании: цена API составляет 5 долларов сша за миллион входных токенов и 25 долларов сша за миллион выходных токенов по сравнению с 15/75 долларов сша за миллион входных/выходных токенов.

Пользователи планов подписки Anthropic теперь также увидят немного больше возможностей для использования Opus 4.5.

Тесты

С запуском GPT-5.1 и 5.1-Codex-Max от OpenAI, Gemini 3 от Google (и его популярной имиджевой модели Nano Banana Pro) ноябрь выдался очень активным для разработчиков крупных моделей. Особенно позитивно был принят «Близнецы 3».

В отличие от Google, Anthropic никогда не фокусировалась на манипулировании изображениями или создании видео, но твердо придерживалась своих сильных сторон в сценариях кодирования и повышения производительности. Этот последний Opus ничем не отличается, и Anthropic подчеркивает, что модель теперь может создавать документы, электронные таблицы и презентации «последовательно, профессионально и с пониманием предметной области».

Но, как обычно, модели Клода блистают именно в программировании. Это отражено в тестах, где Opus 4.5 превосходит конкурентов по всем направлениям, но тесты, конечно, не всегда отражают реальные варианты использования.

Кредит: Антропный.

В этом выпуске Anthropic также провела для Opus 4.5 тот же тест, который он проводит для потенциальных кандидатов в инженеры по производительности, желающих работать в компании. Этот тест, ориентированный исключительно на технические способности, имеет ограничение по времени в два часа, а Opus 4.5 набрал больше баллов, чем любой из кандидатов на работу в Anthropic, когда-либо получавший.

Как сказал мне Алекс Альберт, руководитель отдела по связям с разработчиками в Anthropic, у него возникло ощущение, что «модель просто все понимает». Он отметил, что предыдущие модели часто очень хорошо справлялись со сбором данных по разным каналам (например, Slack и электронная почта), но им было трудно эффективно синтезировать всю эту информацию.

«Я обнаружил, что с этой моделью это уже не так», — сказал он мне. «Я действительно могу быть уверен, что он сразу перейдет от этих сообщений Slack к хорошему результату, а потом я такой: вау, он действительно мог бы просто отправить это. Я все еще проверяю это и все такое, но я действительно мог бы просто быть в стороне».

Низкое, среднее, высокое усилие

Одной из новых особенностей Opus 4.5 является то, что он имеет параметр «усилия» (низкий, средний, высокий), аналогичный некоторым моделям конкурентов, который позволяет разработчикам контролировать, сколько времени (и сколько токенов) модель будет использовать для решения данной проблемы. При среднем значении модель находится на одном уровне с Sonnet 4.5 в тесте SWE-bench Verified, но использует на 76% меньше токенов, и даже при высоких настройках, где она превосходит Sonnet 4.5, она использует только около половины токенов модели Sonnet.

Эту тенденцию мы наблюдаем, и OpenAI также подчеркнула эту эффективность, когда на прошлой неделе представила свою последнюю модель Codex-Max.

В целом, модель также улучшила остальную часть семейства Opus (и Opus 4.1) в других областях, включая визуальное мышление и математику.

Кредит: Антропный.

Opus 4.5 для использования на компьютере

Opus 4.5 также является лучшей моделью Anthropic для компьютерного использования, заявляют в компании. Чтобы проверить это, Anthropic теперь открывает свое расширение Chrome для всех подписчиков Claude Max (которые платят более 100 долларов в месяц).

Использование компьютера и браузера по-прежнему кажется, что оно находится в зачаточном состоянии, и часто кажется довольно медленным и подверженным ошибкам, но Anthropic поднимает уровень развития здесь на новый уровень, получив оценки значительно выше, чем у его предыдущих моделей.

В последнее время Anthropic оказалась в интересном положении: последняя версия ее модели Sonnet среднего уровня часто превосходила старую модель Opus 4.1, давая пользователям очень мало причин использовать более дорогую модель в повседневной работе. Однако идея всегда заключалась в трехуровневой модели, и Opus 4.5 восстанавливает здесь баланс.

«Что интересно в этом релизе, по крайней мере для меня, так это то, что он не обязательно звучит так: «О, теперь всем нужно перейти на Opus», но он действительно открывает этот новый уровень возможностей», — сказал Альберт. «Теперь мы вступаем в этот ландшафт, где у нас действительно есть три модели, которые соответствуют различным потребностям на этой кривой: у вас есть модель Haiku, которую мы выпустили только месяц назад. У вас есть Sonnet 4.5, которая была полтора месяца назад. И теперь это завершает складку».

Обновления платформы разработчиков Claude

В дополнение к новой модели Anthropic также анонсирует два обновления платформы разработчика Claude, которые идут рука об руку с выпуском Opus 4.5: обновленный режим плана для Claude Code и поддержка Claude Code в настольном приложении.

По словам Anthropic, новый режим планирования теперь создает более точные планы решения проблемы или добавления новой функции и более четко их придерживается.

А если вы используете настольное приложение Claude, теперь вы можете приступать к написанию задач в Claude Code на своем рабочем столе или в облачной среде. Теперь это позволяет вам параллельно запускать несколько локальных и удаленных сеансов Claude Code.

ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Прежде чем присоединиться к The New Stack в качестве старшего редактора по искусственному интеллекту, Фредерик был корпоративным редактором в TechCrunch, где освещал все, от появления облака и первых дней Kubernetes до появления квантовых вычислений…. Подробнее от Фредерика Лардинуа

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Один могущественный kro; Один гигантский скачок для ресурсной оркестровки Kubernetes

Операторы систем для хронометристов: что заменит прыжковые секунды?

Anpropic добавляет отзывы о автоматической безопасности в Claude Code

Используйте эту новую технику управления контекстом, чтобы справиться с разочарованием ИИ

Понимание шаблона оператора Kubernetes

Эксперты OpenTelemetry рассказывают о будущем поддержки браузеров

Kubernetes на периферии: уроки периферийной стратегии GE HealthCare

Ubuntu 25.10 отказывается от X11 для Wayland: уверенный шаг вперед

Быстрый редактор Zed-кода на основе Rust наконец-то появился в Windows

Внутри языка Java ренессанс

Kubecon: платформа K8s от VCluster для управления графическими процессорами как услугой

Распределенные постгры: высокая доступность для критически важных приложений

Вам тоже может быть интересно:

Платформа коммерческих услуг BuildOps становится единорогом, собирает 127 миллионов долларов США

Jobandtalent привлечет 103 млн долларов на оценку вниз в 1,5 млрд долларов, так как он, как и ИИ, для набора времен

AMD поднимает выпуск графических процессоров центра обработки данных следующего поколения

Rivian Elects Cohere генерального директора по своему совету по последнему сигналу, производитель EV оптимистичен по искусству AI

Вот все технологические компании, откатывающиеся от DEI или все еще привержены этому — пока

Alexa+ может читать, суммировать и вспомнить длинные документы

Генеральный директор Flexport Генеральный директор Райана Петерсена по высоким ставкам на фоне тарифной суматохи: «Вы не можете быть безумным»

Венто выпускает новый фонд 75 млн евро для итальянских основателей, где бы они ни жили

Модели искусственного интеллекта, обученные незащищенному коду, становятся токсичными.

Nurro’s 106 млн. Долл. США повышает переход от роботов доставки к лицензированию технологии автономии

Купите сейчас, заплатите позже. Полем Полем для буррито?

Обновление Google Play облегчает поиск приложений Android с виджетами