Kubecon Europe Day 1 Основная доклада: может ли наблюдение не отставать от LLMS?

Лондон — Kubernetes продолжает расширять свой охват по всему миру. Это основано на статистике принятия, недавно опубликованной Облачной вычислительной фондом (CNCF). В то же время, проблемы с сложностью Kubernetes далеки от завершения. Фактически, поскольку организации масштабируются для поставщиков и средств с несколькими провайдерами, сложность, связанная с облачными нативными поездками, становится еще более выраженной.

Агенты ИИ и ИИ в настоящее время являются основными компонентами DevOps, хотя никто точно не определил, как они будут применены и используются в DevOps. Несмотря на эту неопределенность, принятие большой языковой модели (LLM) продвигается на полную скорость.

С быстрой расширением Kubernetes, принятием и масштабированием облачных технологий и растущим безумие ИИ — наряду с соображениями затрат — это больше не просто масштабирование по желанию.

Организации теперь должны расставить приоритеты для оптимизации затрат, чтобы контролировать расходы. Видимость становится еще более сложной в современном местном мире. Таким образом, только наблюдаемость может обеспечить необходимый анализ и контроль над этими разрозненными средами, включая управление LLM.

#KubeCon EU 2025 London Day 1 Основная доклада: захватывающая тепловая карта @KuberneSio Savehessio во всем мире, показанная Крисом Анишциком @CRA @macaw.social Pic.twitter.com/nvfgkarij8

— BC Gain (@bcamerongain), 2 апреля 2025 года

Это были ключевые выводы из сегодняшней основной доклад Kubecon + CloudNativecon Europe. Сессия началась с дискуссии CNCF Криса Анишчика о усыновлении штата Кубернет и ежегодном собрании CNCF, которое в этом году отмечает 10 -й годовщину.

На встрече обсуждалась эволюция CNCF, подчеркивая его 10 -летие и рост от 20 оригинальных организаций до более чем 275 000 участников из 190 стран. Ключевые этапы включают первое заседание совета директоров в 2016 году и формализацию Комитета по техническому надзору (TOC). В настоящее время в сообществе 1500 сопровождающих.

Действительно, число сопровождающих Kubernetes имеет больше, чем просто подтверждает эволюцию крупнейшего проекта с открытым исходным кодом CNCF. «Содействия действительно стимулируют всю эту экосистему, от которой все зависят», — сказал Анишчик.

LLM Firehose

#KubeCon EU 2025 Лондонский день 1 Основная доклада: Выберите определение критического пути вместо целых следов к LLMS для значительных проблем наблюдения для LLMS, говорит @Ebay Vijay Samuel. pic.twitter.com/1zds40wzse

— BC Gain (@bcamerongain), 2 апреля 2025 года

Наблюдаемость, как упомянуто выше, теперь должна охватывать LLMS, а также растущее число среды, API и других компонентов инфраструктуры в современном местном мире Cloud на Kubernetes.

Это является частью продолжающегося усыновления Kubernetes. В конце концов, мы все еще находимся на ранних стадиях обнаружения того, что может сделать наблюдение. В то же время он развивается, чтобы охватить новую динамику масштабирования нативного курина Cloud Kubernetes и быстрого расширения использования LLM.

В случае с eBay данные, связанные с пролетами, следами, журналами и метриками, взорвались, с Kubernetes и принятием ИИ. API кассе eBay генерирует 3000 пролетов за запрос, и «мы видели случаи, когда запросы содержат до 8000 пролетов»,-сказал архитектор наблюдения Виджай Самуэль, описывая подход eBay к наблюдению с поддержкой AI во время его основного доклада. «Если бы мы попытались подавать все эти данные в LLM, мы бы превзошли его окно контекста, что приведет к галлюцинациям и неточным резюме», — сказал Самуэль.

Сэмюэл обсудил необходимость стандартизации в приеме и обработке данных, использовании ИИ для простых рассуждений и суммирования, а также поддержание баланса между ИИ и инженерией для эффективного решения проблем.

«Мы использовали LLM для того, что они делают лучше всего — суммирование. Вместо того, чтобы полагаться на ИИ для сложных рассуждений, мы использовали его для распознавания образцов, обнаружения аномалий и суммирования. Наше путешествие с ИИ укрепило фундаментальную истину: ИИ и инженерия должны дополнять друг друга», — сказал Самуэль.

«Только LLMS не может решить все проблемы, но в сочетании с сильными инженерными основными принципами они могут стать мощными инструментами. Благодаря стратегическому уравновешиванию ИИ и инженерных сильных сторон мы можем создать масштабируемые, надежные решения, которые действительно повышают наблюдение и управление инцидентами».

#KubeCon EU 2025 Лондонский день 1 Основная доклада: Выберите определение критического пути вместо целых следов к LLMS для значительных проблем наблюдения для LLMS, говорит @Ebay Vijay Samuel. pic.twitter.com/1zds40wzse

— BC Gain (@bcamerongain), 2 апреля 2025 года

Для вызова наблюдаемости LLM генеральный директор и соучредитель Honeycomb Кристин Йен описала во время своей основной докладчики, что должна обеспечить наблюдение. Йен обсуждала, когда устранение неполадок метаданных, таких как использование токенов, отправляется в LLM, а также анализ или проверка выходов LLM, прежде чем вернуть их пользователю.

«Работая в соответствии с общим принципом, что критерии для принятия решений должны быть захвачены в течение периода времени, вы можете изолировать любое интересное поведение в зависимости от того, как возникает проблема. Это в конечном итоге позволяет нам видеть всю работу, которую мы выполняем, в зависимости от того, чтобы вызывать ее одновременно»,-сказал Йен. «В рабочем процессе, где мы переживаем опыт LLM с бесчисленными потенциальными входными данными, которые могут повлиять на приложение, нам нужна возможность ориентироваться в любой точке системы для проверки данного LLM».

По словам Йен, существует множество специализированных инструментов, которые утверждают, что предлагают необычные решения для наблюдаемой наблюдаемости LLM. «Я буду утверждать, что не хочу жесткого, предопределенного инструмента — особенно не тот, который диктует то, о чем я должен заботиться. Я хочу, чтобы мои инструменты отражали мои приоритеты и определяли, как выглядит« хорошо »для моих приложений», — сказал Йен. «Я хочу что -то, что соответствует моим инженерным командам и интегрируется в общий рабочий процесс приложения».

Сегодняшние разработчики больше не пишут код — хотя помощники по кодированию ИИ, безусловно, ускоряют этот процесс, но также несут ответственность за открытие услуг, управление операциями и тестирование в производстве, сказал Йен. «В конечном счете, мы ответственны за то, что наши конечные пользователи испытывают в результате нашего кода», — сказал Йен.

«Нравится вам это или нет, мы строим в рамках этой новой структуры Genai, и ни один из них не является предсказуемым — это мир контролируемого хаоса».

OpenElemetry — или ничего

Существует @OpenteLemetry и коллекционер (критическая, да): @Dynatrace’s Evan Bradley & @Datadog Pablo Baeyens Talk «Настройте свой собственный коллекционер Opentelemetry: введение в OCB», приведенное в #CNCF День наблюдения, организованный до #KubeCon Europe в Лондоне. @thenewstack pic.twitter.com/5u6uagx9fr

— BC Gain (@bcamerongain), 2 апреля 2025 года

MSCI, компания по финансовым услугам в размере 44 миллиардов долларов, управляет активами в размере 16,5 трлн долларов, влияя на 16% мирового фондового рынка. Он столкнулся с проблемами с инструментами устаревших поставщиков, что привело к неэффективной обработке инцидентов и высокой стоимости.

Чтобы решить эти проблемы, компания приняла OpenElemetry для объединения наблюдаемой инфраструктуры, сокращая время обнаружения проблем на 30% и избегая блокировки поставщиков, согласно AFTAB KHAN, вице-президенту MSCI и инженеру по общему обслуживанию, и Зак Арнольд, руководителя MSCI Index Engineering, который обсуждал Eruebababilitababilitabababilitabababilitabababilitabababilitabababном числе.

В общем, MSCI хранит гигабайт в секунду данных в Elasticsearch и использует Grafana для визуализации. По словам Арнольда, к середине 2023 года 80% его приложений были приспособлены, достигнув эффективности затрат и повышения стабильности-все это без увеличения численности персонала.

Opentelemetry сыграла критическую роль. «Что нам нравится в OpenElemetry, так это то, как она позволяет наблюдать за журналами, метриками и трассами», — сказал Арнольд. «Эти сигналы могут быть получены из любого места и выталкиваются в любом месте».

По словам Арнольда, инфраструктура наблюдаемости MSCI с помощью данных по проглатыванию OpenteLemetry приглашает данные о opentelemetry и интегрирует различные SDK, сказал Арнольд. «Оттуда мы можем подтолкнуть данные к устаревшим инструментам, облачным инструментам или локальным решениям с открытым исходным кодом»,-сказал Арнольд. «Этот подход позволяет нам вернуть наши трубопроводы в качестве кода, облегчая отслеживание, изменение и управление потоками данных в режиме реального времени».

Поскольку OpenElemetry является открытым исходным кодом, она устраняет блокировку поставщиков, поддерживает открытые стандарты и предлагает обширную документацию. Арнольд сказал: «Это создает унифицированный слой, где все говорят на одном языке — определяя журналы, следы и события, последовательно в разных системах. Используя стандартизированный словарный запас и грамматику Opentelemetry, мы обеспечиваем бесшовный поток данных и взаимодействие».

Как и в случае с проблемами наблюдения EBAY LLM, сгенерированные AI Резюме часто содержали случайность и несоответствия, которые делали устранение неполадок менее надежным, сказал Арнольд.

«Мы поняли, что побуждение ИИ детерминированным образом — с четкими, структурированными входами — привело к более предсказуемым результатам», — сказал Арнольд. Тем не менее, уловка слишком много вероятностных элементов в сложные рабочие процессы часто приводило к хаотическим, ненадежным ответам.

«Это привело нас к ключевой реализации: вместо того, чтобы ожидать, что ИИ справится со всем, нам нужны возможности строительных блоков-компоненты с AI, которые являются очень детерминированными и постоянно надежными»,-сказал Арнольд.

Инструменты, управляемые AI, MSCI использует для оказания помощи в наблюдении, как сказал Арнольд:

  • Объяснитель следов: Учитывая идентификатор трассировки, потяните пролеты, проанализируйте их и определите причинный пролет.
  • Журнал объясняет: Учитывая набор ссылок на журнал, анализируйте шаблоны и обнаруживайте ошибки, достойные изучения.
  • Метрический Объяснитель: Учитывая данные временных рядов, определите тенденции и аномалии.
  • Изменить объяснение: Учитывая обновление приложения, проанализируйте и суммируйте, какие изменения произошли.

Но хотя суммирование была общей темой в экспериментах MCSI, проблемы с масштабируемостью вызывали беспокойство. Например, API кассе MCSI генерирует 3000 пролетов за запрос, а некоторые варианты использования достигают 8 000 пролетов за запрос. Подавить все эти данные в LLM не практично — он превышает окно контекста, что приводит к галлюцинациям и неточным результатам.

«Чем больше данных вы питаете LLM, тем больше несоответствий возникает, что делает устранение неполадок еще сильнее», — сказал Арнольд. «Это когда мы поняли, что ИИ и Инжиниринг должны работать вместе. Вместо того, чтобы полагаться только на ИИ, нам нужны были управляемые ИИ инициативы, дополненные лучшими практиками инженеров».

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. BC Gain является основателем и главным аналитиком Revecom Media. Его одержимость компьютерами началась, когда он взломал консоль космических захватчиков, чтобы играть весь день за 25 центов в местной видеокаде в начале 1980 -х годов. Затем он … читайте больше от B. Cameron Gain

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *