Хроносфера спонсировала этот пост.
ИИ движется быстро. Фактически, продвижение и принятие искусственного интеллекта движутся быстрее, чем любой сдвиг, который мы видели со времен Cloud. Новые модели, новые инструменты и новые варианты использования, кажется, появляются каждую неделю. По словам Гартнера, к 2026 году более 80% предприятий будут использовать генеративный ИИ (Genai) в производственных средах. Для команд, управляющих производственными системами, этот темп означает, что наблюдаемость должна не отставать.
Задача? С ИИ мониторинг — это не только время безотказной работы и отзывчивость, хотя они все еще важны. Большинство систем ИИ построены на облачном нативном стеке. Помимо и без того масштабного масштаба, затрат и задач, которые создают облачные нативные системы, теперь нам нужно следить за:
- Модель поведения (галлюцинации, дрейф, токсичность)
- Токен экономика (сколько стоит каждый ответ)
- Графическая инфраструктура (очереди, использование и пропускная способность)
Всемирная наблюдение ИИ вводит совершенно новый набор телеметрии, чтобы понять эти новые области. Другими словами, в наблюдаемости ИИ как проблемы, так и масштаб развиваются и составлены. Теперь, больше, чем когда -либо, вам нужен контроль над вашей телеметрией наблюдения AI, чтобы содержать затраты, повысить производительность и устранение неполадок быстрее.
Управление телеметрией наблюдаемости связано с максимизацией плотности значения: сохранение сигналов, которые обеспечивают наибольшую видимость за потраченный доллар. Чтобы достичь этого, вам нужна видимость в том, как используются ваши данные об наблюдении по сравнению с тем, что они стоит, так что вы можете решить, стоит ли сохранить. Контроль — это возможность понимать использование и стоимость бок о бок.
ИИ представляет множество новой телеметрии, а также множество невиданных оперативных проблем, которые должны помочь наблюдению, которые должны помочь. Инженеры по надежности сайта (SRES) теперь оказывают инциденты с ИИ и выводом, а не только традиционные перебои в инфраструктуре. Незментистские системы ИИ вводят новые режимы сбоя с высокой видимостью, которые делают наблюдение более критическими, чем когда-либо.
Когда ставки поднимаются, уверенность в ИИ начинается с наблюдения и контроля.
В тот момент, когда мы находимся
Поле ИИ перешло от десятилетий исследований и периодических зим ИИ к головокружительному циклу инвестиций и развертывания. GPU разблокировали параллельный вычисление, необходимое для современного ИИ, и генеративные модели привели эту возможность в повседневные продукты, что привело к принятию в промышленности. Чистый эффект: «гонка AI Arm Arms», быстро расширяющаяся ландшафт поставщиков и шаг в сфере данных и сложности применения для управления инженерными командами.
ИИ мы имеем в виду
Есть много ветвей ИИ. Я сосредоточен здесь на Genai и, в частности, большие языковые модели (LLMS). LLMS-это модели искусственного интеллекта, которые обучаются на огромном количестве текста, чтобы генерировать контекстные ответы для интерфейсов, таких как чат, ассистенты кода и поддержки. Это площадь поверхности, способствующая новой надежности, безопасности и затрат в производстве.
Как думать о наблюдаемости и искусственном интеллекте
AI + наблюдаемость можно просматривать через две линзы:
- AI Observicability: Применение современной наблюдаемости к рабочим нагрузкам ИИ и вариантам использования.
- A-A-Assisted Наблюдаемость: Использование ИИ внутри платформы наблюдения для ускорения исследования и результатов.
По мере роста принятия ИИ пользователи инвестируют в обе фронты. Например, A-A-Assisted Observication, облегченная серверами протокола контекста модели (MCP), позволяет клиентам интегрировать LLM и агентов с их существующими системами, тем самым достигая результатов наблюдаемости программно.
Для этой статьи я сосредоточусь на наблюдении ИИ и случаях использования ИИ, которые нуждаются в этом больше всего.
Почему ИИ меняет проблему наблюдения
Рабочие нагрузки ИИ не начинаются с чистого сланца. Они наследуют каждую жесткую проблему, с которой мы уже борясь в облачных нативных системах:
- Массовый масштаб с миллиардами запросов.
- Распределенные архитектуры которые, как известно, трудно устранить устранение неполадок.
- Высокая кардинальность Это взрывает размеры метки.
- Вездесущий Стоимость давления от хранения и обработки петабайтов телеметрических данных.
Народность облака уже была уже высокой панелью для четкого, требующего сложных инструментов, постоянных компромиссов и некоторого способа контроля над телеметрией наблюдения по соображениям затрат и производительности.
ИИ поднимает эту прутью еще выше. Помимо всего вышеперечисленного, команды теперь должны бороться с насыщением и очередей за графическим процессором, задержкой LLM и проблемами пропускной способности, а также с множественными зависимостями, такими как поисковые конвейеры (RAG) или цепочки агентов, которые вводят новые точки неудачи.
Существует также новое экономическое измерение: бухгалтерский учет токена и жесткая связь использования инфраструктуры с затратами на запрос. И в отличие от традиционных систем, рабочие нагрузки искусственного интеллекта вводят поведенческие риски, такие как галлюцинации, предвзятость, дрейф и токсичность, которые влияют не только на надежность, но и доверие и безопасность.
Проблемы наблюдения для рабочих нагрузок AI, существующие проблемы O11y для облачных нативных сред, новые проблемы с AI O11y ✨ масштабные миллиарды запросов, объемы данных по поведению в образе данных по поведению модели, предвзятости, галлюцинации, токсично Rag Pipelines, Цепочки агентов системы и устранение неполадок. Микросервисы, распределенные архитектуры, задержка производительности модели корреляции, пропускная способность, затраты на наблюдение за наблюдаемой качество
Именно здесь сходятся надежность, безопасность и экономика подразделения, и где проблема наблюдения не просто развивается, она растет в сложности и срочности.
К счастью, существуют SDK с открытым исходным кодом, такие как OpenInerence и OpenllMetry, которые облегчают доступ к телеметрии, необходимой для понимания и решения этих специфических для AI-задач. И они облегчают это, предоставляя информацию в стандартном отраслевом формате Opentelemetry. Кроме того, NVIDIA DCGM может экспортировать показатели и использование GPU в формате Prometheus, что делает их простыми для их включения в платформы наблюдения.
4 Примеры использования ИИ и как проявляется наблюдаемость
Рынок ИИ кластера в четыре повторяющихся случая. Каждый требует адантируемого подхода наблюдения:
Вариант использования
Описание сегмента
Требования об наблюдении
Модели строителей
Фонд/модели команды, использующие тренировочные трубопроводы и петли оценки. Требовать видимости между тренировками и конференциями, с быстрым обнаружением снижения производительности модели, неудачными оценками и узкими местами инфраструктуры.
Поставщики графических процессоров
Команды платформы управляют кластерами и планировщиками с мультилентами. Нужна телеметрия в режиме реального времени для распределения, насыщения, здоровья рабочих мест и производительности арендаторов в общих кластерах, чтобы держать флоты полностью использоваться.
A-intive
Профессиональные компании по доставке приложений LLM с быстрой итерацией. Борьба с приглашенной цепочкой, слепые пятна, регрессии логики поиска, горячие точки задержки и давление памяти.
Функции строителей
Традиционные предприятия добавляют функции искусственного интеллекта в существующие услуги. Нужна сплоченная сквозная видимость и точная атрибуция затрат от слоя AI до инфраструктуры.
Требуется основополагающая стратегия наблюдения ИИ
Для всех вариантов использования искусственного интеллекта, основополагающая стратегия включает в себя:
- Сосредоточившись на рабочих нагрузках, которые имеют значение.
- Создание четких целей уровня обслуживания (SLO) в отношении пользовательского опыта, стоимости и безопасности.
- Создание сигналов, связанных с первоклассным, благодаря использованию Opentelemetry.
- Оптимизация стоимости и производительности путем применения методов управления к телеметрии наблюдения.
Вот как вы отправляете быстро, содержате расходы и сохраняете доверие на высоте, когда внедряет внедрение AI. Или сказал другой способ: применить наблюдаемость, где ИИ соответствует масштабе, потому что именно здесь состав инженерного и влияния на бизнес.
Наблюдение AI является операционной системой для надежных, безопасных и экономичных систем LLM, RAG и GPU. Сделайте его первоклассным с контролем, а остальное следует.
Хроносфера — это платформа наблюдения, созданная для контроля в современном, контейнерном мире. Признанная в качестве лидера крупными аналитическими фирмами, хроносфера дает клиентам сосредоточиться на данных и идеях, которые имеют значение для снижения сложности данных, оптимизировать затраты и быстрее решать проблемы. Узнайте больше новейших из хроносферных трендовых историй Youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Дэн Юенгст служит главным для маркетинга предприятий в Chronosphere. Дэн имеет более чем 20 -летний опыт работы в таких областях, как потоковые данные, наблюдение, аналитика данных, DevOps, облачные вычисления, вычисления сетки и высокопроизводительные вычисления. Дэн … Подробнее от Дэна Юэнгста