Новый Claude Opus 4.5 от Anthropic возвращает себе корону кодирования

Сегодня Anthropic выпустила последнюю версию своей флагманской модели Opus: Opus 4.5.

Компания называет ее своей самой интеллектуальной моделью и отмечает, что она особенно сильна в решении задач кодирования, отобрав корону у OpenAI GPT-5.1-Codex-Max и модели Gemini 3 от Google недельной давности с показателем точности, подтвержденным SWE-Bench, равным 80,9%.

Компания также делает Opus 4.5 значительно более доступным в использовании: цена API составляет 5 долларов сша за миллион входных токенов и 25 долларов сша за миллион выходных токенов по сравнению с 15/75 долларов сша за миллион входных/выходных токенов.

Пользователи планов подписки Anthropic теперь также увидят немного больше возможностей для использования Opus 4.5.

Тесты

С запуском GPT-5.1 и 5.1-Codex-Max от OpenAI, Gemini 3 от Google (и его популярной имиджевой модели Nano Banana Pro) ноябрь выдался очень активным для разработчиков крупных моделей. Особенно позитивно был принят «Близнецы 3».

В отличие от Google, Anthropic никогда не фокусировалась на манипулировании изображениями или создании видео, но твердо придерживалась своих сильных сторон в сценариях кодирования и повышения производительности. Этот последний Opus ничем не отличается, и Anthropic подчеркивает, что модель теперь может создавать документы, электронные таблицы и презентации «последовательно, профессионально и с пониманием предметной области».

Но, как обычно, модели Клода блистают именно в программировании. Это отражено в тестах, где Opus 4.5 превосходит конкурентов по всем направлениям, но тесты, конечно, не всегда отражают реальные варианты использования.

Кредит: Антропный.

В этом выпуске Anthropic также провела для Opus 4.5 тот же тест, который он проводит для потенциальных кандидатов в инженеры по производительности, желающих работать в компании. Этот тест, ориентированный исключительно на технические способности, имеет ограничение по времени в два часа, а Opus 4.5 набрал больше баллов, чем любой из кандидатов на работу в Anthropic, когда-либо получавший.

Как сказал мне Алекс Альберт, руководитель отдела по связям с разработчиками в Anthropic, у него возникло ощущение, что «модель просто все понимает». Он отметил, что предыдущие модели часто очень хорошо справлялись со сбором данных по разным каналам (например, Slack и электронная почта), но им было трудно эффективно синтезировать всю эту информацию.

«Я обнаружил, что с этой моделью это уже не так», — сказал он мне. «Я действительно могу быть уверен, что он сразу перейдет от этих сообщений Slack к хорошему результату, а потом я такой: вау, он действительно мог бы просто отправить это. Я все еще проверяю это и все такое, но я действительно мог бы просто быть в стороне».

Низкое, среднее, высокое усилие

Одной из новых особенностей Opus 4.5 является то, что он имеет параметр «усилия» (низкий, средний, высокий), аналогичный некоторым моделям конкурентов, который позволяет разработчикам контролировать, сколько времени (и сколько токенов) модель будет использовать для решения данной проблемы. При среднем значении модель находится на одном уровне с Sonnet 4.5 в тесте SWE-bench Verified, но использует на 76% меньше токенов, и даже при высоких настройках, где она превосходит Sonnet 4.5, она использует только около половины токенов модели Sonnet.

Эту тенденцию мы наблюдаем, и OpenAI также подчеркнула эту эффективность, когда на прошлой неделе представила свою последнюю модель Codex-Max.

В целом, модель также улучшила остальную часть семейства Opus (и Opus 4.1) в других областях, включая визуальное мышление и математику.

Кредит: Антропный.

Opus 4.5 для использования на компьютере

Opus 4.5 также является лучшей моделью Anthropic для компьютерного использования, заявляют в компании. Чтобы проверить это, Anthropic теперь открывает свое расширение Chrome для всех подписчиков Claude Max (которые платят более 100 долларов в месяц).

Использование компьютера и браузера по-прежнему кажется, что оно находится в зачаточном состоянии, и часто кажется довольно медленным и подверженным ошибкам, но Anthropic поднимает уровень развития здесь на новый уровень, получив оценки значительно выше, чем у его предыдущих моделей.

В последнее время Anthropic оказалась в интересном положении: последняя версия ее модели Sonnet среднего уровня часто превосходила старую модель Opus 4.1, давая пользователям очень мало причин использовать более дорогую модель в повседневной работе. Однако идея всегда заключалась в трехуровневой модели, и Opus 4.5 восстанавливает здесь баланс.

«Что интересно в этом релизе, по крайней мере для меня, так это то, что он не обязательно звучит так: «О, теперь всем нужно перейти на Opus», но он действительно открывает этот новый уровень возможностей», — сказал Альберт. «Теперь мы вступаем в этот ландшафт, где у нас действительно есть три модели, которые соответствуют различным потребностям на этой кривой: у вас есть модель Haiku, которую мы выпустили только месяц назад. У вас есть Sonnet 4.5, которая была полтора месяца назад. И теперь это завершает складку».

Обновления платформы разработчиков Claude

В дополнение к новой модели Anthropic также анонсирует два обновления платформы разработчика Claude, которые идут рука об руку с выпуском Opus 4.5: обновленный режим плана для Claude Code и поддержка Claude Code в настольном приложении.

По словам Anthropic, новый режим планирования теперь создает более точные планы решения проблемы или добавления новой функции и более четко их придерживается.

А если вы используете настольное приложение Claude, теперь вы можете приступать к написанию задач в Claude Code на своем рабочем столе или в облачной среде. Теперь это позволяет вам параллельно запускать несколько локальных и удаленных сеансов Claude Code.

ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Прежде чем присоединиться к The New Stack в качестве старшего редактора по искусственному интеллекту, Фредерик был корпоративным редактором в TechCrunch, где освещал все, от появления облака и первых дней Kubernetes до появления квантовых вычислений…. Подробнее от Фредерика Лардинуа

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *