Соединение разрыва между мониторингом и разрешением инцидентов

Pagerduty спонсировал этот пост.

Сложность современных программных архитектур развивалась далеко за пределы того, для чего были разработаны традиционные инструменты мониторинга. Инженерные команды сталкиваются с резкой реальностью: средний инцидент сейчас стоит почти 800 000 долларов и требуется три часа. Несмотря на беспрецедентный доступ к мониторингу данных, команды изо всех сил пытаются перевести эту богатство информации в эффективное управление инцидентами.

Решение не добавляет больше инструментов мониторинга в микс. Это превращает богатство информации в эффективное управление инцидентами.

Отсоединение-действие отключение

В то время как организации вкладывают значительные средства в инструменты мониторинга и платформы наблюдения, многие по -прежнему испытывают критический разрыв между генерацией оповещения и значимым ответом. Это отключение проявляется несколькими способами:

  • Усталость предупреждения от подавляющего шума мониторинга.
  • Сложность в определении приоритета инцидента и влияния на бизнес.
  • Задержка срока отклика из -за переключения между многочисленными платформами мониторинга и реагирования на инциденты.
  • Недостаток автоматизации и ИИ, чтобы снять лифт с респондентов.

Преобразование данных в действие

Решение заключается не в сборе большего количества данных, а при преобразовании данных, которые мы уже имеем в интеллектуальные, автоматизированные рабочие процессы. С помощью ИИ и стандартизированной телеметрии все больше заполняют пробелы наблюдения, организации теперь имеют возможность выйти за рамки базового мониторинга истинного оперативного интеллекта.

Это преобразование начинается с понимания того, что каждое предупреждение должно рассказать историю: та, которая обеспечивает контекст, предлагает действие и обеспечивает быстрый ответ. Или еще лучше, вообще не говорить. Если это не актуально, респондент даже не должен беспокоиться.

Интеллектуальная корреляция оповещения служит основой этого подхода. Понимая отношения между услугами и их зависимостями, организации могут выйти за рамки изолированных предупреждений, чтобы увидеть более широкий повествование об инциденте и его каскадном воздействии.

Когда несколько предупреждений вызывают различные услуги, корреляционные двигатели могут определить основную причину и подавлять избыточные уведомления, позволяя командам сосредоточиться на проблеме.

Контекстное обогащение приводит это дальше, автоматически добавляя соответствующие метаданные услуги, исторические данные об инцидентах и ​​информацию о влиянии на бизнес на каждое предупреждение. Этот дополнительный контекст помогает респондентам понять не только то, что сломано, но и почему и как его исправить.

Практические шаги внедрения

Путешествие к эффективному управлению инцидентами, основанным на наблюдении, начинается с понимания вашей среды обслуживания. Чтобы успешно преобразовать данные об наблюдении в действенных рабочих процессах:

Начните с картирования обслуживания

  • Документируйте критические зависимости обслуживания.
  • Определите четкие границы владения.
  • Установить цели уровня обслуживания (SLO).
  • Создать каталоги услуг с соответствующими метаданными.

Стройте разведывательные слои

  • Развернуть машинное обучение для распознавания шаблонов.
  • Внедрить автоматическую классификацию инцидентов.
  • Создать динамические правила маршрутизации инцидентов.
  • Разработать приоритетные механизмы оценки.

Автоматизируйте шаблоны ответа

  • Определите общие типы инцидентов.
  • Создайте автоматические диагностические процедуры.
  • Реализуйте автоматическое исправление, где это возможно.
  • Построить измерение и механизмы обратной связи.

Оптимизировать мониторинг вверх по течению

  • Просмотрите и консолидируйте инструменты мониторинга, чтобы уменьшить совпадение.
  • Регулируйте пороговые значения оповещения на основе фактических паттернов инцидентов.
  • Реализовать правила корреляции, чтобы уменьшить предупреждение.
  • Создайте циклы обратной связи между управлением инцидентами и конфигурацией мониторинга.

Измерение успеха

Если вы ищете метрики, которые подтверждают, что вы находитесь на пути к пониманию данных вашего мониторинга, вы можете посмотреть:

  • Снижение в среднем для признания (MTTA).
  • Улучшение в среднее для разрешения (MTTR).
  • Уменьшение предупреждения и ложных срабатываний.
  • Увеличение процентного процента разрешения.

Успех в этой трансформации не измеряется исключительно по техническим показателям, хотя они остаются важными. Успех также заключается в повышении эффективности ваших команд, внутренних опросах удовлетворенности работой, уровням истощения и общему сокращению влияния инцидентов на ваш бизнес. Реальные показатели успешного преобразования заключаются в том, что инженеры тратят меньше времени на борьбу с пожарами и больше возможностей для строительства, когда инциденты разрешаются, прежде чем клиенты заметят их, и когда вращения по вызову больше не приводят к выгоранию.

Расширение вашей стратегии мониторинга

Традиционный мониторинг остается необходимым, но подключения инструментов мониторинга к платформам Chatops недостаточно. Ключ — расширение вашего управления инцидентами. Создание эффективных операций, даже когда мониторинг не идеален. Вместо того, чтобы тратить бесконечные ресурсы для точного настройки конфигураций мониторинга, организациям нужны системы, которые обеспечивают бизнес-ценность независимо от пробелов.

Будущее управления инцидентами заключается в создании интеллектуальных систем, которые могут автоматически интерпретировать, коррелировать и действовать после мониторинга данных. Это не означает удаление людей из петли, и оно соответствует трем категориям оперативной работы-от хорошо понимаемых проблем до новых проблем-которые требуют различных уровней автоматизации и человеческого надзора. Эта трансформация означает повышение людей из реактивных реагирующих респондентов до стратегических лиц, принимающих решения.

Заключение

Разрыв между мониторингом и разрешением инцидентов невозможным для преодоления. Организациям не нужно больше данных. Им нужно преобразовать свои существующие данные в автоматизированные, интеллектуальные рабочие процессы. С каждым инцидентом, влияющим на клиента, стоимостью почти 800 000 долларов, ставки ясны. Ключ заключается не в сборе большего количества данных, а при более высоком использовании данных, которые у нас уже есть.

Преобразование не происходит в одночасье, но будущее принадлежит организациям, которые могут расширить свою стратегию мониторинга на интеллектуальные, автоматизированные операции, делая инциденты менее разрушительными и более управляемыми при сохранении скорости, необходимой для того, чтобы оставаться конкурентоспособной на сегодняшнем рынке.

Pagerduty является глобальным лидером в области управления цифровыми операциями, преобразующий критическую работу для современных предприятий. PageRduty Operations Cloud объединяет AIOP, автоматизацию, операции обслуживания клиентов и управление инцидентами для создания гибкой, устойчивой и масштабируемой платформы. Узнайте больше последних из Pagerduty Trending Stories YouTube.com/thenewstack Tech, быстро движется, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Кристина Диас-менеджер по маркетингу продуктов в Pagerduty и поддерживает область продукции управления инцидентами с помощью инициатив на рынке. Ее 5+ лет опыта включает в себя стратегии маркетинга продуктов и аналитику данных на глобальных рынках. До Pagerduty она построила … Подробнее от Кристины Диас

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *