Antropic Today объявила, что ее модель Claud Sonnet 4, основная модель компании, которая находится под своей флагманской моделью Claude Opus 4, теперь поддержит контекстное окно токена 1 миллион. Эта длинная контекстная поддержка в настоящее время находится в публичной бета -версии и доступна через API API и на Amazon Bedrock, причем в ближайшее время появится поддержка в Google Vertex AI.
Миллион токенов является грубым эквивалентом 750 000 слов, что позволяет модели рассуждать о большом объеме данных, если разработчики прибегают к более сложным методам, таким как поколение поиска-август (RAG).
Когда в мае Anpropic выпустила модели последнего поколения, Sonnet 4 и Opus 4 были ограничены контекстным окном 200 000 токенов. Этого достаточно для многих вариантов использования, но еще в начале 2024 года Google, например, предложил контекстное окно токена 1 миллион для своих моделей Gemini, с обещанием сделать 2 миллиона токеновых контекстов в ближайшее время. В начале этого года OpenAI последовал примеру запуска GPT-4.1, который также поддерживал контекстное окно токена 1 миллион (но затем GPT-5 снова снизил до 400 000 токенов).
Там не было ни слова о том, когда (или если) Opus 4 получит такое же обновление.
В качестве антропных примечаний в сегодняшнем объявлении, длинный контекст позволит моделям оценивать больше данной кодовой базы, например, (и кодирование — это то, где Клод уже давно преуспел), синтезирует более крупные наборы документов и создавать агенты искусственного интеллекта, которые могут поддерживать контекст даже после сотен звонков с инструментами.
Тем не менее, все это происходит по цене, с подсказками, которые превышают старый 200 000 токенов, стоят вдвое больше на 1 миллион токенов (6 долларов против 3 долл. сша) и на 50% больше на 1 миллион токенов. Антропическая отмечает, что быстрое кэширование может помочь снизить затраты (и задержку) и подчеркивает, что его режим переработки партии также может помочь снизить стоимость на 50%.
Стоит отметить, что было некоторое обсуждение того, насколько хорошо работают большие языковые модели с этими чрезвычайно большими контекстными окнами. Часто тестом для этого является тест иглы-в-запас, который просит модель найти определенную часть данных в окне контекста. Там большинство моделей теперь работают довольно хорошо.
Однако, как отмечали некоторые исследователи, это не обязательно то, как разработчики используют эти контекстные окна на практике. Действительно, модели часто изо всех сил пытаются сохранить согласованность как длину сеанса — и с ним, например, размер контекста — расширяется.
Из -за этого контекстная инженерия, вероятно, не уйдет в ближайшее время, даже когда окна контекста увеличиваются в размере.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Прежде чем присоединиться к новому стеку в качестве старшего редактора для ИИ, Фредерик был редактором предприятия в TechCrunch, где он освещал все, от роста облака и самых ранних дней Kubernetes до появления квантовых вычислений …. Подробнее от Frederic Lardinois