Облачный нативный и с открытым исходным исход

Oracle спонсировал этот пост.

автоматизация предприятия все чаще использует интеллектуальные рабочие процессы агента, управляемые ИИ, как правило, полагаясь на крупные языковые модели (LLMS) для этих приложений. В то время как LLM могут учитывать многие варианты использования в общем назначении, развертывание и оркестрование этих моделей могут добавить значительную сложность и высокие эксплуатационные расходы.

Чтобы справиться с предпринимательными вариантами использования, организации начали видеть выгоду из небольших моделей. В результате модели с малым языком (SLMS) в сочетании с современными облачными нативными платформами, такими как Kubernetes и функция в качестве сервиса (FAAS), появились в качестве альтернативы для решения агентских вариантов использования ИИ.

Давайте рассмотрим, как эффективно использовать облачные нативные парадигмы для развертывания и масштабирования агентских рабочих процессов на основе SLM. В частности, как использовать платформы Kubernetes, Knative и Blessless, чтобы помочь динамически управлять рабочими нагрузками с выводом, оптимизировать использование ресурсов и ускорить инновации в приложениях AI, управляемых агентами.

Почему маленькие языковые модели?

В то время как LLM приобрели популярность за их впечатляющие возможности, их высокие вычислительные требования и значительные накладные расходы инфраструктуры часто ограничивают их практическое развертывание в масштабе. SLMS, как правило, с меньшим количеством параметров и более скудных вычислительных требований, могут предложить существенные преимущества в сценариях, где отзывчивость, масштабируемость и экономическая эффективность имеют решающее значение.

Примером SLM является Microsoft Phi-3-Mini. Его относительно небольшое количество параметров (3,8 миллиарда) приводит к меньшему следу памяти и более быстрому времени обработки. Другие примеры SLM включают Mistral 7B, Llama 3.2 и Google Gemma 2B, которые хорошо подходят для работы на небольших графических процессорах и процессорах. Эти модели предназначены для эффективности и могут быть развернуты в различных настройках, в том числе краевые устройства, такие как ноутбуки.

Для многих агентских рабочих процессов, таких как взаимодействие с клиентами в реальном времени, автоматизация DevOps, обнаружение аномалий и обогащение данных, SLM, как правило, обеспечивают достаточную точность и значительно меньшую задержку. Их меньший след делает их идеальными кандидатами на облачные нативные архитектуры, подчеркивая гибкость и экономическую эффективность.

Облачные нативные архитектуры: Kubernetes и FAAS

Экосистема Cloud Native Computing Foundation (CNCF) предоставляет надежные инструменты, которые обеспечивают эффективные и масштабируемые развертывания ИИ. В основе — Kubernetes, платформа для оркестровки контейнеров, известная для автоматизации развертывания, масштабирования и управления приложениями. Kubernetes облегчает развертывание в контейнер, обеспечивая эффективное распределение ресурсов и бесшовную масштабируемость.

Богатая экосистема проектов CNCF дополняет Kubernetes, в том числе Knatie. Эта платформа FAAS предоставляет разработчикам и командам MLOPS критические строительные блоки для развертывания без серверных рабочих нагрузок на Kubernetes, что позволяет автоматическому масштабированию на основе спроса и помогает уменьшить эксплуатационные накладные расходы за счет динамического управления жизненными циклами контейнеров.

Использование этих технологий вместе может помочь организациям быстро развернуть агенты на основе SLM, беспрепятственно масштабировать под различными рабочими нагрузками и поддерживать эффективность затрат.

Практическая реализация

Чтобы создать следующую реализацию, мы используем двигатель OCI Kubernetes (OKE) на Oracle Cloud Infrastructure (OCI). OKE предоставляет полностью управляемую среду Kubernetes, упрощая настройку и эксплуатацию кластеров Kubernetes Production. Это соответствует Kubernetes с открытым исходным кодом CNCF, и пример ниже должен также работать с использованием этого. Кроме того, интеграция Knative в OKE создает надежную инфраструктуру без серверов для развертывания SLM.

Архитектурный план

Эффективная облачная нативная архитектура, использующая OCI, Kubernetes и FAAS для развертывания SLM, состоит из нескольких ключевых компонентов, таких как перечисленные ниже:

  • Oracle Kubernetes Engine (OKE): Управляет кластерами Kubernetes, автоматизации оркестровки, безопасности и масштабирования.
  • Рыночная порция: Предоставляет возможности без сервера, автоматически масштабирование контейнеров SLM вверх и вниз в зависимости от запросов вывода.
  • Хранение объектов OCI: Сохраняет модели артефакты и файлы конфигурации, облегчая простое развертывание и обновления.
  • Прометей и Графана: Интегрировать с помощью инструментов CNCF; Они контролируют показатели эффективности, использование ресурсов и поведение масштабирования.
  • Istio Service Mesh: Предлагает усовершенствованное управление трафиком, безопасность и наблюдение.

Пошаговое руководство по развертыванию

  • Приготовьте свой кластер Kubernetes
  • Предоставление кластера Kubernetes с использованием Managed Kubernetes Service OCI. Это упрощает управление кластером, оставляя вас свободными, чтобы сосредоточиться на специфике развертывания:

    OCI CE CER CLEAST-NAME MY-OKEOKE-CLUSTER-KUBERNETES-VARSION v1.29.0 1 OCI CE CER CLEAST

  • Установите рыжая порции
  • Развернуть рычаг с использованием манифестов YAML, обеспечивая функциональность без серверов:

    Kubectl Apply -f kubectl Apply -f 12 kubectl Apply -f kubectl Apply -f

  • Контейнеризация модели небольшого языка
  • Используйте Docker или OCI-совместимый реестр контейнеров, чтобы упаковать ваш SLM с легкими средами выполнения, такими как Fastapi или Flask:

    От python: 3.11 -slim copy ./model ./model copy teds.txt ./ run pip install -r tement.txt cmd [«uvicorn», «app:app», «—host», «0.0.0.0», «—port», «8080»]

    12345 от Python: 3.11 -slimcopy ./model ./modelcopy reditions.txt ./run install -r restaint.txtcmd [«uvicorn», «app:app», «—host», «0.0.0.0», «—port», «8080»]

  • Развернуть SLM без сервера через Knative
  • Создайте рыночную службу Yaml Manifest:

    Apiversion: Serving.Knative.Dev/V1 вид: метаданные обслуживания: Имя: SLM-AGENT Спецификация: Шаблон: Спецификация: Контейнеры:-Изображение: OCI-Container-REGISTION/MY-SLM-AGENT: V1.0 Ресурсы: Запросы: CPU: 500M MEMORY: 512MI 1234567891011111313 APIVERIONSION. ServiceMetAdata: Имя: SLM-AGENTSPEC: Шаблон: Спецификация: Контейнеры:-Изображение: OCI-Container-REGISTION/MY-SLM-AGENT: V1.0 Ресурсы: Запросы: ЦП: 500 м. Память: 512mi

    Примените манифест для развертывания вашей модели в качестве рыночной службы:

    kubectl Apply -f slm -agent.yaml 1 kubectl Apply -f slm -agent.yaml

    Knative автоматически масштабирует ваш агент SLM на основе входящих запросов, раскручивания и разрывания контейнеров по мере необходимости, оптимизируя использование ресурсов и стоимость.

  • Мониторинг и оптимизация
  • Использование таких инструментов, как Прометея и Графана, развернутые через диаграммы Helm, мониторинг производительности агента SLM, задержки и использования ресурсов:

    Установка Helm Prometheus prometheus-community/kube-prometheus-stack 1 helm install prometheus prometheus-community/kube-prometheus-stack

    Настройте сервисную сетку ISTIO для подробного управления трафиком и безопасности.

    Обращение к отраслевым вариантам использования
    Поддержка клиентов в реальном времени

    Развертывание SLM-агентов для поддержки в чате в реальном времени может помочь повысить эффективность взаимодействия с клиентами за счет значительного сокращения задержки ответа. Облачные нативные агенты могут динамически масштабироваться, чтобы удовлетворить колебания спроса, уменьшая задержки в период пиковых периодов использования. Организации получают выгоду от снижения эксплуатационных затрат, так как инфраструктура без серверов устраняет необходимость всегда предоставления, беспрепятственно масштабирующих ресурсов, чтобы точно соответствовать спросу.

    DevOps Automation

    Интеграция SLM -агентов в трубопроводы CI/CD с Kubernetes и Knative обеспечивает высокоэффективное автоматизированное устранение неполадок и упреждающее обнаружение аномалий. Агенты могут быстро интерпретировать журналы сборки и тестовые выходы, мониторинг оповещения, диагностировать проблемы и предлагать немедленные исправления. Это помогает повысить эксплуатационную эффективность, сократить время простоя и оптимизировать процессы DevOps, помогая быстро идентифицировать и разрешать узкие места трубопровода.

    Финансовые услуги

    Финансовые учреждения могут развернуть легкие SLM-агенты для более быстрого анализа рыночных данных в режиме реального времени, что позволяет быстрому и информированному принятию решений без тяжелых вычислительных накладных расходов, типичных для более крупных моделей. Эти гибкие, масштабируемые развертывания могут более эффективно помочь обрабатывать существенные объемы одновременных запросов, предоставляя трейдерам и финансовым аналитикам немедленное понимание, прогнозы тенденций и оценки рисков, которые имеют решающее значение для информированных торговых стратегий и для решения соответствия регулированию.

    Заключение

    Организации стремятся понять новую парадигму, которую предлагает агент AI для повышения эффективности эксплуатации. Интегрируя SLM с Kubernetes и FAAS, предприятия могут использовать масштабируемые, эффективные и отзывчивые решения на основе агентов, чтобы помочь решить их варианты использования. Облачные нативные решения, такие как OKE OKE, дополненные инструментами CNCF, такими как Knatie, Prometheus и Istio, могут помочь оптимизировать операции, применяться для сокращения накладных расходов и позволить организациям обеспечить инновационные решения, основанные на искусственном интеллекте, быстро и экономически. Принимая во внимание этот облачный нативный подход, позиционирует предприятия, чтобы процветать во все более гибкой и конкурентной среде.

    Экспериментируйте с облачными нативными службами Oracle, используя Oracle Cloud Free Tier, или быстро создайте новые генеративные решения искусственных интеллекта с помощью Hub AI Solutions.

    Oracle предлагает широкий спектр технологий для строительства, тестирования и обслуживания приложений в облаке и в вашем центре обработки данных. Найдите бесплатные инструменты и учебные ресурсы на Developer.oracle.com Узнайте больше последних из Oracle Trending Stories YouTube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Sanjay Basu PhD, старший директор — Gen AI/GPU Cloud Engineering в Oracle. Он сосредотачивается на продвинутых услугах, таких как генеративный ИИ, машинное обучение, инженерию GPU, блокчейн, микросервисы, промышленный IoT, Core 5G, а также облачная безопасность и соответствие. У него двойник … читать больше от Санджая Басу

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *