Предполагается, что агенты ИИ обогнали предприятие и, возможно, Интернет, но есть один нервный вызов, который не привлекает большого внимания: оплата токенов, которые лежат в основе всех крупных языковых моделей, стоящих за агентами искусственного интеллекта.
«С агентами и агентскими рабочими нагрузками, они просто прожевывают токены весь день», — сказал The New Stack Мэтт Зейлер, генеральный директор компании AI Clarifai. «Такие вещи, как Github, Copilot, Openai Codex, все эти различные инструменты кодирования, теперь обрабатывают работу асинхронно, и это просто означает, что вы можете выполнять десять различных задач и заставить их все жевать жетоны одновременно».
Clarifai объявила сегодня новый инструмент, который предназначен для решения этой потенциальной затраты, оптимизируя производительность вывода моделей. По словам Зейлера, механизм рассуждения Clarifai — это коллекция оптимизаций, которые используют то, как модели «мышление», а затем повышают производительность без качества или точности. [Editor’s Note: Atlas also offers a reasoning engine, but its goal is to help models reason about tasks, breaking them into subtasks.]
‘В два раза быстрее на 40% затрат’
«Эти модели продумывают шаг за шагом, и из-за этого есть определенные оптимизации, которые мы можем сделать, чтобы они ускорили это»,-сказал он. Одним из таких методов является оптимизация ядра для производительности. По словам Зейлера, благодаря улучшению задержки и скорости двигатель рассуждений делает модель ИИ более экономичной.
«Это в два раза быстрее, чем конкуренты на 40% по сравнению с стоимостью»,-сказал он. «Из -за нашей эффективности запуска модели с помощью нашего двигателя рассуждений мы могли бы также оценить ее, чтобы сделать ее гораздо более привлекательным для всех ваших агентских случаев использования ИИ».
Организации также могут использовать платформу Clarifai и обоснование двигателя для оптимизации пользовательских моделей ИИ.
«Они могут на самом деле обернуть свои собственные модели в очень простой класс Python», — сказал он. «Тогда они могут реализовать то, что они хотят, чтобы их модель была».
Платформа Clarifai также позволяет разработчикам писать инструменты MCP, которые они могут определить и развернуть на платформе с одной строкой кода.
Недавний анализ искусственного анализа показывает, что оптимизированная модель Clarifai Openai GPT-OSP 120B предлагала выходной сигнал приблизительно 650 токенов в секунду, по цене 10 центов на 1 миллион токенов. Следующим самым быстрым предложением была Sambanova примерно на 600 токенов в секунду, стоимостью 30 центов на 1 миллион токенов. По цене, Compactai также составляет 10 центов на 1 миллион токенов, но его скорость была намного ниже, на уровне 200 токенов в секунду.
«Есть некоторые компании, которые строят индивидуальные чипы, такие как Groq, Sambanova, ET и так далее», — сказал он. «Наши результаты даже конкурентоспособны с некоторыми из этих пользовательских чипов, а не только с другими, которые являются поставщиками графиков».
Предоставлено Clarifai, из искусственного анализа.
В эталоне искусственного анализа, модель Clarifai, размещенная GPT-OSS-120B, достигла новых записей скорости, обслуживая более 500 токенов в секунду со временем до первого тока 0,3 секунды. В последующем раунде испытаний двигатель рассуждений Clarifai превзошел все реализации выводов на основе GPU, а также специализированные ускорители, не являющиеся GPU, впервые доказывая, что производительность графического процессора может соответствовать-и в некоторых случаях превзойти архитектуры без GPU, говорится в заявлении.
Зейлер добавил, что многие компании просто делают вывод, но не оптимизации.
«Это выбор: вам нужна низкая задержка? Вы хотите высокую пропускную способность и хотите низкие цены», — сказал он. «С помощью Clarifai вы получаете всех трех из них, не жертвуя каким -либо качеством и не жертвуете гибкостью развертывания в любом облаке или даже в предпосылке».
По его словам, двигатель рассуждений вписывается в вычислительный продукт Clarifai, который был объявлен ранее в этом году.
«Эти модели организуются в этих различных видах вычислительных самолетов на щелчке кнопки», — сказал он. «Вы можете предоставить их в наших облачных VPC, на этих различных облачных провайдерах. Вы также можете подключить свой собственный вычислитель от всех различных облачных провайдеров в вашем VPC, а также голого металла. Таким образом, модель может получить двигатель рассуждений Clarifai, а затем развернуть его в любой из этих вычислительных сред».
Это также позволяет динамически динамически маршрутизации трафика, выпущенная в предварительном просмотре в начале этого года.
Clarifai также запустила местных бегунов несколько недель назад. Локальный бегун — это агент или процесс, который выполняет задания, такие как тесты или сборки. Они также помогают повысить производительность.
«Мы на самом деле используем местных бегунов в значительной степени для создания оптимизаций, лежащих в основе нашего двигателя рассуждений Clarifai, потому что он позволяет вам даже вкладывать точки разрыва во время сравнения, при тестировании вашей модели, и это изменение игры для команд искусственного интеллекта»,-сказал Зейлер.
Это в основном позволяет запустить модель на MacBook или ПК на уровне геймера, точно так же, как в облаке или локальном кластере. Это открывает этот вычисление за API Clarifai, и API «говорит» все общие протоколы, включая MCP и GRPC.
«Из -за этого у вас теперь может быть модель, работающая в вашем ноутбуке, фактически используется в ваших инструментах кодирования или набор для разработки агента, или как бы ваш любимый клиент MCP», — сказал он.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Loraine Lawson — ветеран -репортер, который в течение 25 лет освещал технологические проблемы от интеграции данных до безопасности. Прежде чем присоединиться к новому стеку, она работала редактором Banking Technology Site Bank Automation News. Она … читайте больше от Лорейн Лоусон