ИИ с верхними пограничными моделями похож на ресторанную еду — вы должны посетить OpenAI, Google или Microsoft, чтобы потреблять его. Но это медленно меняется.
Ведущие компании по искусственному ИИ делают версии выпуска своих проприетарных границ крупных языковых моделей, которые пользователи могут работать в своих собственных центрах обработки данных.
Компании также могут использовать пользовательские модели вывода с или без интернет -подключений.
Google настраивает версии своего Gemini LLM, которые компании могут устанавливать на серверах с графическими процессорами в своих центрах обработки данных. Это большое изменение по сравнению с прошлым, когда Близнецы были доступны только в Google Cloud.
Google Gemini родился на TPU, но теперь он перенесен на графические процессоры в общедоступном облаке, что позволяет им устанавливать на частных серверах, сообщил The New Stack Sachin Gupta, вице -президенту и генеральному директору по инфраструктуре и решениям в Google Cloud.
«Мы предлагаем это в воздушных и в подключенных сценариях».
— Сачин Гупта, Google Cloud
«Мы принимаем эти модели и оптимизированы для графических процессоров, а затем мы можем принести их на предмет, используя [Nvidia] Blackwell Systems,-сказал Гупта.-Мы предлагаем это в воздушных и подключенных сценариях ».
Startup Cohere также настраивает версии своей крупной языковой модели границы, которую компании могут развернуть на своем собственном оборудовании. Компания в начале этого месяца собрала 500 миллионов долларов сша по оценке в размере 5,5 миллиардов долларов.
Осенний MOULDER, вице -президент по техническим инженерам в COHERE, на самом деле не то, что позволяет бизнес -стоимости, на самом деле не то, что позволяет бизнес -стоимости.
Cohere обеспечивает аппаратную гибкость для своих локальных моделей.
«Это одна из вещей, на которой мы многое сосредоточили, когда построили всю эту автономную систему»,-сказал Моулдер.
Многие компании стремятся отказаться от рабочих нагрузок облака и репатриации по ценам и соображениям безопасности. Эти пользовательские модели точно настроены на конкретные приложения организаций и работают в ограниченных средах.
Оборудование
Концепция проприетарных моделей ИИ, работающих на внутреннем оборудовании, является довольно молодым явлением.
Openai и Anpropic еще не обладают этими возможностями, и они не ответили на запросы о комментариях.
Исторически, популярные пограничные модели были сняты на проприетарное оборудование. Google Gemini использовал TPU Company, использованные GPU NVIDIA и использованные пользовательские фишки с антропным использованием в облаке.
Компании, которые хотели AI на месте, вместо этого обратились к открытым моделям, таким как Deepseek, Mistral и Llama, которые можно загрузить и поддерживать в различных системах. Эти модели легко настраиваемы и бесплатны.
Порт Google Gemini от TPU до графических процессоров расширит след LLM, давая ему преимущество над OpenAI, чьи модели ограничены облачными серверами.
Инициативы Cohere по ИИ начались с TPU Google, но теперь он переносит свою модель в другое аппаратное обеспечение AI.
«Мы разрешаем опциозную кремниевую опцию и работаем с несколькими поставщиками для вывода».
— Осенний кучу, Cohere
«Мы допускаем опциозную кремниевую опцию и работаем с несколькими поставщиками для вывода. У нас есть партнерство с NVIDIA и AMD», — сказал Мулдер.
Безусловно, это не для случайных пользователей. Для настройки и развертывания этих моделей ИИ с черным ящиком может потребоваться миллионы долларов.
Google и Cohere делают ставки на простоту развертывания как способ привлечения клиентов. Их модели представляют собой предварительно упакованные приложения, которые не требуют, чтобы клиенты разрабатывали все с нуля.
Почему вынос завоевывает?
По словам Джека Голда, главного аналитика J. Gold Associates, эпоха сомнения в ИИ закончилась, и компании уверенно перемещают ИИ к производству в своих собственных центрах обработки данных.
По словам Голда, некоторые компании хотят, чтобы свои ИТ-собственности и предпочитают модели искусственного интеллекта в своих системах по обеспечению безопасности и соблюдения требований.
Google Gupta привел пример ServiceNow, который разработал агент ИИ для Близнецов.
«Этот агент действует по данным клиента… которые должны оставаться локальными. И есть некоторые требования к соответствию,-сказал Гупта.
По словам Чарли Дай, вице -президента и основного аналитика в Forrester Research, требования к суверенитету данных также требуют, чтобы компании содержали данные клиентов на частных серверах в определенных географических точках.
По словам Коуддер, чтобы перейти к производству в ИИ, особенно в критической инфраструктурной промышленности, компаниям нужен уровень контроля над тем, куда идут данные.
«Вы должны быть в состоянии узнать, куда идут ваши данные. Вы не можете полагаться на сторонние данные, которые сидят на серверах, контролируемых кем-то другим»,-сказал Моулдер. «Это открывает вас слишком многими нормативными проблемами».
Модели
Внутренние модели, как правило, являются ограниченными версиями крупных языковых моделей, которые нацелены на вывод. Оба используют Kubernetes в качестве вычислительного уровня.
По словам руководителей, разработчики должны понимать эффективность в частных вычислительных средах, особенно с тем, что системы с поддержкой AI, входящие в производство.
Стресс -тестирование Система ИИ также важна.
По словам Гупты, клиенты пробовали Близнецы в Google Cloud, и им нужны такие функции, как 1-миллионное окно контекста и мультимодальные возможности в своих собственных центрах обработки данных.
«Мы можем использовать нашу полностью управляемую облачную службу в области облака Google Distribute Prooted… чтобы просто включить Gemini Pro, API Gemini Flash для клиентов. Им не нужно беспокоиться ни о чем в этом стеке, они просто получают API, который им подвергается воздействию»,-сказал Гупта.
По словам Мондер, пакеты Cohere и предоставляют модели, распознавая целевую архитектуру, в которой клиент находится клиент.
«Мы просто удостоверимся, что это то, что им доступно. Но вся система, она почти одинакова, просто составлена для каждой другой архитектуры», — сказал Моулдер.
Cohere гарантирует, что существует нулевая зависимости от конкретного управляемого поставщика.
«А потом мы допускаем много конфигурации, которая входит в эту среду. И это позволяет нам нацелиться на виртуальное частное облако, локально. Это все равно для нас»,-сказал Моулдер.
Настраиваемые модели
Клиенты могут настроить модель в PREM своими собственными данными.
Появленные API позволяют клиентам начать интеграцию агентов или рабочих процессов машинного обучения.
«Мы также обнаружили, что некоторые из них имеют очень специфические потребности, где мы можем настроить модель, которая просто вертикально интегрирована и очень хорошо работает для этой конкретной предметной области с определенными партнерами», — сказал Моулдер.
Google в партнерстве с Nvidia для предоставления конфиденциального стека вычислительных вычислений, который защищает данные.
«Партнерство позволяет нам защищать IP модели, работающей в конфиденциальной виртуальной машине, чтобы при использовании модели она полностью защищена в зашифрованной виртуальной машине», — заявил в новом стеке Джастин Бойтано, вице -президент по программному обеспечению AI Enterprise AI в NVIDIA.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Агам Шах освещал его более десяти лет. Помимо машинного обучения, оборудования и чипов, он также интересуется боевыми искусствами и Россией. Подробнее от Агама Шаха