Google Cloud готовится к массовым рабочим нагрузкам ИИ и использует Kubernetes в качестве платформы, чтобы это произошло.
На этой неделе, во время конференции Googlenext компании в Лас -Вегасе, Google обнародовал ряд усовершенствований для двигателя Google Kubernetes (GKE), направленных на то, чтобы упростить рабочие нагрузки искусственного интеллекта.
Компания также представила свой сервис суперкомпьютерного обслуживания на основе GKE, занимающийся специальным размещением для рабочих нагрузок искусственного интеллекта.
У многих компаний уже есть какой -то опыт Kubernetes, управляющий своей инфраструктурой, поэтому имеет смысл использовать этот же талант, чтобы отправиться в путешествие по ИИ, сказал Гейб Монрой, вице -президент и генеральный директор Cloudtttime в Google в интервью TNS.
«Ваши знания и опыт в Kubernetes не просто актуальны, это ваша сверхдержава ИИ», — сказал Монрой.
Многие из его клиентов уже начались по этому пути. Использование AI-ориентированных графических процессоров и TPU компании выросло на 900% в прошлом году. Все 15 из лучших клиентов GKE в настоящее время используют услугу для рабочих нагрузок для ИИ и машинного обучения (ML), Монрой хвастался.
Компания ожидает, что ИИ принесет более 200 миллиардов долларов в годовых облачных услугах инфраструктуры только к 2028 году.
Увеличение GKE включает в себя поддержку нового стандарта Kubernetes, называемый расширением вывода API Gateway, который поможет лучше сочетать рабочие нагрузки с AI с ресурсами Kubernetes.
А новая служба суперкомпьютации GKE, называемая Cluster Director, также будет вмешиваться в машины GKE в режим суперкомпьютеров Monster, позволяя им работать на крупных заданиях по моделированию искусственного интеллекта.
А когда дела идут не так, облачная компания посадила версию своего чата-клиента на основе AI Gemini под названием Gemini Cloud Assist Assist, на панели управления Admin GKE, где она может отлаживать проблемы.
Установите балансировщик нагрузки на «ИИ»
В настоящее время в публичном предварительном просмотре шлюз по выводу GKE обеспечивает интеллектуальную маршрутизацию и балансировку нагрузки для рабочих нагрузок с выводом искусственного интеллекта, используя расширение вывода API Gateway Foundation Cloud Computing Foundation (CNCF), которое в настоящее время находится в стадии разработки.
Расширение вывода шлюза CNCF API превращает любой шлюз Kubernetes в «шлюз вывода», что позволяет тренировать, оптимизированные настройки модели для лучшего баланса загрузки.
Такое расширение будет предлагать особый интерес для команд платформ вывода, использующих Kubernetes для запуска своих крупных языковых моделей (LLMS).
Сегодня они должны бороться с общими балансировщиками нагрузки, которые плохо справляются с непредсказуемым характером трафика. Виновник? Время отклика переменной. Некоторые короткие вопросы требуют долгих ответов. Или наоборот. Или ни один. Это управляет прогнозирующими способностями балансировщиков нагрузки Бэтти.
Другая проблема: несколько моделей.
В любой процветающей среде искусственного интеллекта «вам нужно управлять множеством различных версий моделей, и вы должны фактически управлять маршрутизацией во всех этих разных моделях», — сказал Монрой. «Сегодняшняя инфраструктура балансировки нагрузки просто не вырезана для таких вещей».
Благодаря схеме тегов, шлюз является «модельным осведомленностью» и, таким образом, оптимизирован для интеллектуальной маршрутизации, способный различать различные версии размещаемых моделей.
Для того, чтобы утомить производительность, шлюз имеет «алгоритм планирования запросов», который отслеживает скорости использования узлов и может соответственно корректировать рабочие нагрузки, «избегая выселений или очереди при увеличении нагрузки», как отмечают документы Github.
Некоторые другие преимущества также добавляются в расширение, такие как сквозная наблюдаемость и изоляция рабочей нагрузки.
Ставки на Монрой утверждение о том, что GKE является первым, кто реализует расширение вывода CNCF. Скорее всего, последний релиз — на момент прессы — 0,40.
Но в этой реализации шлюз вывода GKE может увеличить пропускную способность на 40%, уменьшить задержку хвоста до 60%и снизить затраты на сервер до 30%, по оценкам Google.
Виртуальная суперкомпьютинг
Для Google Next компания официально запустила свой сервис Supercomputing.
Директор GKE’s Cluster — это новая платформа сервисов, которая имитирует работу суперкомпьютера (ранее она была известна как гиперкомпьютный кластер), позволяя пользователям развертывать несколько виртуальных машин — с вычислительными, хранилищами и сетью — как единое целое.
Пользователи могут поставить кластер до 65 000 графических процессоров или TPU на одну работу. Автоматизированный ремонт исправляет любые узлы, которые падают во время работы.
Оркестратор Kubernetes осведомлен о неисправных кластерах и может при необходимости перемещать рабочие нагрузки в другой экземпляр. Используя Nodelabels от Google Cloud, он может планировать рабочие нагрузки на основе лучшей доступной топологии.
Лучше всего то, что суперкомпьютер можно полностью пройти через GKE, используя стандартные API Kubernetes. Чтобы создать AI-оптимизированный кластер с GKE, Google предлагает набор настраиваемых чертежей. Сам Google использует GKE для питания своего недавно запущенного сервиса Vertix AI Enterprise ML.
Несмотря на то, что у сервиса есть расширения искусственного интеллекта, Google рассматривает директора Cluster в качестве замены общего назначения для автономных высокопроизводительных компьютеров, гигантских машин с обнаженным металликом, которые на сегодняшний день были в значительной степени построены.
Это то, что Google сейчас называет рынком Supercomputer. Это клиенты, которым требуются миллионы ядер, которые могут быть объединены для выполнения одной задачи, такие как финансовые услуги, управляющие большими симуляциями Монте -Карло для расчета риска.
Компания сосредотачивается на «GoodPut», HPC для количества полезного контента, предоставленного для приложения. С учетом, Goodput равен «проценту времени, когда прогресс прогрессируется на тренировочных пробегах», — сказал Монрой.
С директором кластера Google стремится 99%.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Joab Jackson является старшим редактором нового стека, охватывающего облачные нативные вычисления и системы системы. Он сообщил об инфраструктуре и развитии IT более 25 лет, в том числе в IDG и государственных компьютерных новостях. До этого он … читал больше от Джоаба Джексона