Укрощение наблюдения ИИ: контроль является ключом к успеху

Хроносфера спонсировала этот пост.

ИИ движется быстро. Фактически, продвижение и принятие искусственного интеллекта движутся быстрее, чем любой сдвиг, который мы видели со времен Cloud. Новые модели, новые инструменты и новые варианты использования, кажется, появляются каждую неделю. По словам Гартнера, к 2026 году более 80% предприятий будут использовать генеративный ИИ (Genai) в производственных средах. Для команд, управляющих производственными системами, этот темп означает, что наблюдаемость должна не отставать.

Задача? С ИИ мониторинг — это не только время безотказной работы и отзывчивость, хотя они все еще важны. Большинство систем ИИ построены на облачном нативном стеке. Помимо и без того масштабного масштаба, затрат и задач, которые создают облачные нативные системы, теперь нам нужно следить за:

  • Модель поведения (галлюцинации, дрейф, токсичность)
  • Токен экономика (сколько стоит каждый ответ)
  • Графическая инфраструктура (очереди, использование и пропускная способность)

Всемирная наблюдение ИИ вводит совершенно новый набор телеметрии, чтобы понять эти новые области. Другими словами, в наблюдаемости ИИ как проблемы, так и масштаб развиваются и составлены. Теперь, больше, чем когда -либо, вам нужен контроль над вашей телеметрией наблюдения AI, чтобы содержать затраты, повысить производительность и устранение неполадок быстрее.

Управление телеметрией наблюдаемости связано с максимизацией плотности значения: сохранение сигналов, которые обеспечивают наибольшую видимость за потраченный доллар. Чтобы достичь этого, вам нужна видимость в том, как используются ваши данные об наблюдении по сравнению с тем, что они стоит, так что вы можете решить, стоит ли сохранить. Контроль — это возможность понимать использование и стоимость бок о бок.

ИИ представляет множество новой телеметрии, а также множество невиданных оперативных проблем, которые должны помочь наблюдению, которые должны помочь. Инженеры по надежности сайта (SRES) теперь оказывают инциденты с ИИ и выводом, а не только традиционные перебои в инфраструктуре. Незментистские системы ИИ вводят новые режимы сбоя с высокой видимостью, которые делают наблюдение более критическими, чем когда-либо.

Когда ставки поднимаются, уверенность в ИИ начинается с наблюдения и контроля.

В тот момент, когда мы находимся

Поле ИИ перешло от десятилетий исследований и периодических зим ИИ к головокружительному циклу инвестиций и развертывания. GPU разблокировали параллельный вычисление, необходимое для современного ИИ, и генеративные модели привели эту возможность в повседневные продукты, что привело к принятию в промышленности. Чистый эффект: «гонка AI Arm Arms», быстро расширяющаяся ландшафт поставщиков и шаг в сфере данных и сложности применения для управления инженерными командами.

ИИ мы имеем в виду

Есть много ветвей ИИ. Я сосредоточен здесь на Genai и, в частности, большие языковые модели (LLMS). LLMS-это модели искусственного интеллекта, которые обучаются на огромном количестве текста, чтобы генерировать контекстные ответы для интерфейсов, таких как чат, ассистенты кода и поддержки. Это площадь поверхности, способствующая новой надежности, безопасности и затрат в производстве.

Как думать о наблюдаемости и искусственном интеллекте

AI + наблюдаемость можно просматривать через две линзы:

  • AI Observicability: Применение современной наблюдаемости к рабочим нагрузкам ИИ и вариантам использования.
  • A-A-Assisted Наблюдаемость: Использование ИИ внутри платформы наблюдения для ускорения исследования и результатов.

По мере роста принятия ИИ пользователи инвестируют в обе фронты. Например, A-A-Assisted Observication, облегченная серверами протокола контекста модели (MCP), позволяет клиентам интегрировать LLM и агентов с их существующими системами, тем самым достигая результатов наблюдаемости программно.

Для этой статьи я сосредоточусь на наблюдении ИИ и случаях использования ИИ, которые нуждаются в этом больше всего.

Почему ИИ меняет проблему наблюдения

Рабочие нагрузки ИИ не начинаются с чистого сланца. Они наследуют каждую жесткую проблему, с которой мы уже борясь в облачных нативных системах:

  • Массовый масштаб с миллиардами запросов.
  • Распределенные архитектуры которые, как известно, трудно устранить устранение неполадок.
  • Высокая кардинальность Это взрывает размеры метки.
  • Вездесущий Стоимость давления от хранения и обработки петабайтов телеметрических данных.

Народность облака уже была уже высокой панелью для четкого, требующего сложных инструментов, постоянных компромиссов и некоторого способа контроля над телеметрией наблюдения по соображениям затрат и производительности.

ИИ поднимает эту прутью еще выше. Помимо всего вышеперечисленного, команды теперь должны бороться с насыщением и очередей за графическим процессором, задержкой LLM и проблемами пропускной способности, а также с множественными зависимостями, такими как поисковые конвейеры (RAG) или цепочки агентов, которые вводят новые точки неудачи.

Существует также новое экономическое измерение: бухгалтерский учет токена и жесткая связь использования инфраструктуры с затратами на запрос. И в отличие от традиционных систем, рабочие нагрузки искусственного интеллекта вводят поведенческие риски, такие как галлюцинации, предвзятость, дрейф и токсичность, которые влияют не только на надежность, но и доверие и безопасность.

Проблемы наблюдения для рабочих нагрузок AI, существующие проблемы O11y для облачных нативных сред, новые проблемы с AI O11y ✨ масштабные миллиарды запросов, объемы данных по поведению в образе данных по поведению модели, предвзятости, галлюцинации, токсично Rag Pipelines, Цепочки агентов системы и устранение неполадок. Микросервисы, распределенные архитектуры, задержка производительности модели корреляции, пропускная способность, затраты на наблюдение за наблюдаемой качество

Именно здесь сходятся надежность, безопасность и экономика подразделения, и где проблема наблюдения не просто развивается, она растет в сложности и срочности.

К счастью, существуют SDK с открытым исходным кодом, такие как OpenInerence и OpenllMetry, которые облегчают доступ к телеметрии, необходимой для понимания и решения этих специфических для AI-задач. И они облегчают это, предоставляя информацию в стандартном отраслевом формате Opentelemetry. Кроме того, NVIDIA DCGM может экспортировать показатели и использование GPU в формате Prometheus, что делает их простыми для их включения в платформы наблюдения.

4 Примеры использования ИИ и как проявляется наблюдаемость

Рынок ИИ кластера в четыре повторяющихся случая. Каждый требует адантируемого подхода наблюдения:

Вариант использования
Описание сегмента
Требования об наблюдении

Модели строителей
Фонд/модели команды, использующие тренировочные трубопроводы и петли оценки. Требовать видимости между тренировками и конференциями, с быстрым обнаружением снижения производительности модели, неудачными оценками и узкими местами инфраструктуры.

Поставщики графических процессоров
Команды платформы управляют кластерами и планировщиками с мультилентами. Нужна телеметрия в режиме реального времени для распределения, насыщения, здоровья рабочих мест и производительности арендаторов в общих кластерах, чтобы держать флоты полностью использоваться.

A-intive
Профессиональные компании по доставке приложений LLM с быстрой итерацией. Борьба с приглашенной цепочкой, слепые пятна, регрессии логики поиска, горячие точки задержки и давление памяти.

Функции строителей
Традиционные предприятия добавляют функции искусственного интеллекта в существующие услуги. Нужна сплоченная сквозная видимость и точная атрибуция затрат от слоя AI до инфраструктуры.

Требуется основополагающая стратегия наблюдения ИИ

Для всех вариантов использования искусственного интеллекта, основополагающая стратегия включает в себя:

  • Сосредоточившись на рабочих нагрузках, которые имеют значение.
  • Создание четких целей уровня обслуживания (SLO) в отношении пользовательского опыта, стоимости и безопасности.
  • Создание сигналов, связанных с первоклассным, благодаря использованию Opentelemetry.
  • Оптимизация стоимости и производительности путем применения методов управления к телеметрии наблюдения.

Вот как вы отправляете быстро, содержате расходы и сохраняете доверие на высоте, когда внедряет внедрение AI. Или сказал другой способ: применить наблюдаемость, где ИИ соответствует масштабе, потому что именно здесь состав инженерного и влияния на бизнес.

Наблюдение AI является операционной системой для надежных, безопасных и экономичных систем LLM, RAG и GPU. Сделайте его первоклассным с контролем, а остальное следует.

Хроносфера — это платформа наблюдения, созданная для контроля в современном, контейнерном мире. Признанная в качестве лидера крупными аналитическими фирмами, хроносфера дает клиентам сосредоточиться на данных и идеях, которые имеют значение для снижения сложности данных, оптимизировать затраты и быстрее решать проблемы. Узнайте больше новейших из хроносферных трендовых историй Youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Дэн Юенгст служит главным для маркетинга предприятий в Chronosphere. Дэн имеет более чем 20 -летний опыт работы в таких областях, как потоковые данные, наблюдение, аналитика данных, DevOps, облачные вычисления, вычисления сетки и высокопроизводительные вычисления. Дэн … Подробнее от Дэна Юэнгста

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *