CNCF спонсировал этот пост.
«Я одержим умозаключениями», — сказал Джонатан Брайс, занявший этим летом пост исполнительного директора Cloud Native Computing Foundation (CNCF), во время дискуссии, организованной The New Stack на KubeCon North America 2025 в Атланте.
«Многие люди действительно увлекаются LLM [large language models] и обучение, — сказал мне позже в тот же день Брайс. — Я думаю, что мы упускаем самую важную часть истории — это умозаключения».
В этом выпуске The New Stack Makers я поговорил с Брайсом, чтобы обсудить, почему, по его мнению, логический вывод будет доминировать в вычислительной технике в следующем десятилетии, что означает новая программа соответствия ИИ Kubernetes CNCF для предприятий и как проекты в портфеле CNCF, насчитывающем более 130 проектов с открытым исходным кодом, преобразуются под воздействием рабочих нагрузок ИИ.
Почему вывод является реальной возможностью для CNCF
«Одержимость выводами» Брайса – неплохая навязчивая идея. Хотя отрасль уже давно сосредоточена на обучении крупных специалистов по LLM, он рассматривает вывод, то есть обслуживание этих моделей, как рабочую нагрузку, которая определит следующую эру вычислений. И именно здесь CNCF с его широким портфелем инфраструктурных проектов, которые сейчас, возможно, даже более важны, чем когда-либо, может сыграть основополагающую роль.
«Вывод очень хорошо сочетается с технологиями, которые есть у нас в облачном сообществе», — объяснил он. «Все дело в развертывании, защите, масштабировании, наблюдении и выполнении таким образом, чтобы это было скорее онлайн-приложение, работающее в режиме реального времени, а не пакетное обучение».
Графические процессоры дороги, дефицитны и энергоемки и останутся таковыми в обозримом будущем. Брайс считает, что нативные облачные инструменты могут обеспечить не только поэтапные улучшения, но и «на порядок повысить эффективность этих стеков вывода».
Kubernetes, флагманский проект CNCF, часто лежит в основе всего этого. «Я думаю, что типичный путь, по которому люди прошли, — это взять какой-то стек, это может быть Ray для Kubernetes или KServe, который на этой неделе только что закончил работу и стал инкубационным проектом CNCF. KServe — это механизм обслуживания выводов. Они берут такие вещи и развертывают их поверх Kubernetes, и это подводит их к первой фазе возможности загрузки модели и начала отвечать на запросы и выполнять базовый уровень вывода», — Брайс объяснил.
Программа соответствия ИИ Kubernetes
CNCF запустила программу соответствия Kubernetes AI на KubeCon, предоставляя предприятиям основу для выполнения рабочих нагрузок AI. Спецификация v1 фокусируется на поддержке графического процессора и динамическом распределении ресурсов (DRA), гарантируя, что совместимые среды Kubernetes будут иметь примитивы, необходимые для выполнения вывода AI.
«Если у вас есть рабочая нагрузка ИИ, вы будете знать, что в среде Kubernetes доступны определенные компоненты, такие как DRA и некоторые другие элементы», — сказал Брайс, когда я спросил его об этой новой программе. «У вас может быть соответствующая среда Kubernetes, которая будет представлять собой обычный ванильный Kubernetes, и она не обязательно будет содержать все те элементы, которые вам потребуются, если вы пытаетесь запустить рабочую нагрузку ИИ. И я бы сказал, что самый простой способ думать об этом — это действительно нацелена на ускоренные рабочие нагрузки».
Брайс рассматривает программу соответствия как одно из трех частей фундамента, в котором нуждается сообщество: цель, к которой следует стремиться, соответствующие реализации и эталонные архитектуры, основанные на опыте сообщества в реальных развертываниях. «Сейчас я думаю, что мы находимся довольно далеко назад, где каждый как бы понимает это самостоятельно», — сказал он.
Грядет взрыв агентного вывода
Нынешняя шумиха вокруг агентов ИИ только увеличивает потребность в этих решениях, утверждает Брайс. В конце концов, агенты, которые параллельно работают над сложными, многоэтапными задачами, резко увеличивают нагрузку на системы вывода.
«Взаимодействие, которое мы имеем с LLM, на самом деле довольно медленное и малообъемное», — отметил Брайс. «Когда вы выходите и даете агенту сложную задачу, состоящую из нескольких шагов, он попытается выполнить ее параллельно или так быстро, как только сможет. Это резко увеличит нагрузку. Все, что вы можете сделать, чтобы эти запросы выполнялись более эффективно — меньшие модели, лучший вывод, что бы это ни было — это сделает этих агентов более эффективными, более экономичными, а также обеспечит более качественные результаты».
Именно здесь опыт сообщества разработчиков облачных технологий становится критически важным. Как отметил Брайс, примитивы сети и маршрутизации, уже встроенные в Kubernetes, могут быть расширены с помощью плагинов с поддержкой логического вывода, которые направляют запросы к конкретным графическим процессорам или предварительно заполненным кэшам, что обеспечивает значительный прирост производительности без необходимости изменения базовой архитектуры Kubernetes.
Выходя за рамки ChatGPT-момента
Брайс считает, что через три года после запуска ChatGPT предприятия готовы преодолеть «момент ChatGPT» и найти подходящие модели для правильных вариантов использования. Это означает, что более мелкие специализированные модели обучены на специально созданных наборах данных, а не просто огромные LLM, изучающие «историю каждого лауреата Нобелевской премии и кампании Чингисхана», чтобы ответить на простой вопрос о дорожном движении в Атланте.
«Мы должны выйти за рамки ChatGPT и LLM в нашем мыслительном процессе о том, что такое искусственный интеллект и как мы собираемся извлечь из него максимальную пользу», — сказал он.
Это, утверждает он, позволит сообществу идти по пути предоставления инфраструктурного программного обеспечения для «самой большой рабочей нагрузки, которая когда-либо будет у человечества».
Фонд Cloud Native Computing Foundation (CNCF) размещает критически важные компоненты глобальной технологической инфраструктуры, включая Kubernetes, Prometheus и Envoy. CNCF — это нейтральная площадка для сотрудничества, объединяющая ведущих разработчиков отрасли, конечных пользователей и поставщиков. Узнайте больше Последние новости от CNCF TRENDING STORIES YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Прежде чем присоединиться к The New Stack в качестве старшего редактора по искусственному интеллекту, Фредерик был корпоративным редактором в TechCrunch, где освещал все, от появления облака и первых дней Kubernetes до появления квантовых вычислений…. Подробнее от Фредерика Лардинуа