Pagerduty спонсировал этот пост.
Сложность современных программных архитектур развивалась далеко за пределы того, для чего были разработаны традиционные инструменты мониторинга. Инженерные команды сталкиваются с резкой реальностью: средний инцидент сейчас стоит почти 800 000 долларов и требуется три часа. Несмотря на беспрецедентный доступ к мониторингу данных, команды изо всех сил пытаются перевести эту богатство информации в эффективное управление инцидентами.
Решение не добавляет больше инструментов мониторинга в микс. Это превращает богатство информации в эффективное управление инцидентами.
Отсоединение-действие отключение
В то время как организации вкладывают значительные средства в инструменты мониторинга и платформы наблюдения, многие по -прежнему испытывают критический разрыв между генерацией оповещения и значимым ответом. Это отключение проявляется несколькими способами:
- Усталость предупреждения от подавляющего шума мониторинга.
- Сложность в определении приоритета инцидента и влияния на бизнес.
- Задержка срока отклика из -за переключения между многочисленными платформами мониторинга и реагирования на инциденты.
- Недостаток автоматизации и ИИ, чтобы снять лифт с респондентов.
Преобразование данных в действие
Решение заключается не в сборе большего количества данных, а при преобразовании данных, которые мы уже имеем в интеллектуальные, автоматизированные рабочие процессы. С помощью ИИ и стандартизированной телеметрии все больше заполняют пробелы наблюдения, организации теперь имеют возможность выйти за рамки базового мониторинга истинного оперативного интеллекта.
Это преобразование начинается с понимания того, что каждое предупреждение должно рассказать историю: та, которая обеспечивает контекст, предлагает действие и обеспечивает быстрый ответ. Или еще лучше, вообще не говорить. Если это не актуально, респондент даже не должен беспокоиться.
Интеллектуальная корреляция оповещения служит основой этого подхода. Понимая отношения между услугами и их зависимостями, организации могут выйти за рамки изолированных предупреждений, чтобы увидеть более широкий повествование об инциденте и его каскадном воздействии.
Когда несколько предупреждений вызывают различные услуги, корреляционные двигатели могут определить основную причину и подавлять избыточные уведомления, позволяя командам сосредоточиться на проблеме.
Контекстное обогащение приводит это дальше, автоматически добавляя соответствующие метаданные услуги, исторические данные об инцидентах и информацию о влиянии на бизнес на каждое предупреждение. Этот дополнительный контекст помогает респондентам понять не только то, что сломано, но и почему и как его исправить.
Практические шаги внедрения
Путешествие к эффективному управлению инцидентами, основанным на наблюдении, начинается с понимания вашей среды обслуживания. Чтобы успешно преобразовать данные об наблюдении в действенных рабочих процессах:
Начните с картирования обслуживания
- Документируйте критические зависимости обслуживания.
- Определите четкие границы владения.
- Установить цели уровня обслуживания (SLO).
- Создать каталоги услуг с соответствующими метаданными.
Стройте разведывательные слои
- Развернуть машинное обучение для распознавания шаблонов.
- Внедрить автоматическую классификацию инцидентов.
- Создать динамические правила маршрутизации инцидентов.
- Разработать приоритетные механизмы оценки.
Автоматизируйте шаблоны ответа
- Определите общие типы инцидентов.
- Создайте автоматические диагностические процедуры.
- Реализуйте автоматическое исправление, где это возможно.
- Построить измерение и механизмы обратной связи.
Оптимизировать мониторинг вверх по течению
- Просмотрите и консолидируйте инструменты мониторинга, чтобы уменьшить совпадение.
- Регулируйте пороговые значения оповещения на основе фактических паттернов инцидентов.
- Реализовать правила корреляции, чтобы уменьшить предупреждение.
- Создайте циклы обратной связи между управлением инцидентами и конфигурацией мониторинга.
Измерение успеха
Если вы ищете метрики, которые подтверждают, что вы находитесь на пути к пониманию данных вашего мониторинга, вы можете посмотреть:
- Снижение в среднем для признания (MTTA).
- Улучшение в среднее для разрешения (MTTR).
- Уменьшение предупреждения и ложных срабатываний.
- Увеличение процентного процента разрешения.
Успех в этой трансформации не измеряется исключительно по техническим показателям, хотя они остаются важными. Успех также заключается в повышении эффективности ваших команд, внутренних опросах удовлетворенности работой, уровням истощения и общему сокращению влияния инцидентов на ваш бизнес. Реальные показатели успешного преобразования заключаются в том, что инженеры тратят меньше времени на борьбу с пожарами и больше возможностей для строительства, когда инциденты разрешаются, прежде чем клиенты заметят их, и когда вращения по вызову больше не приводят к выгоранию.
Расширение вашей стратегии мониторинга
Традиционный мониторинг остается необходимым, но подключения инструментов мониторинга к платформам Chatops недостаточно. Ключ — расширение вашего управления инцидентами. Создание эффективных операций, даже когда мониторинг не идеален. Вместо того, чтобы тратить бесконечные ресурсы для точного настройки конфигураций мониторинга, организациям нужны системы, которые обеспечивают бизнес-ценность независимо от пробелов.
Будущее управления инцидентами заключается в создании интеллектуальных систем, которые могут автоматически интерпретировать, коррелировать и действовать после мониторинга данных. Это не означает удаление людей из петли, и оно соответствует трем категориям оперативной работы-от хорошо понимаемых проблем до новых проблем-которые требуют различных уровней автоматизации и человеческого надзора. Эта трансформация означает повышение людей из реактивных реагирующих респондентов до стратегических лиц, принимающих решения.
Заключение
Разрыв между мониторингом и разрешением инцидентов невозможным для преодоления. Организациям не нужно больше данных. Им нужно преобразовать свои существующие данные в автоматизированные, интеллектуальные рабочие процессы. С каждым инцидентом, влияющим на клиента, стоимостью почти 800 000 долларов, ставки ясны. Ключ заключается не в сборе большего количества данных, а при более высоком использовании данных, которые у нас уже есть.
Преобразование не происходит в одночасье, но будущее принадлежит организациям, которые могут расширить свою стратегию мониторинга на интеллектуальные, автоматизированные операции, делая инциденты менее разрушительными и более управляемыми при сохранении скорости, необходимой для того, чтобы оставаться конкурентоспособной на сегодняшнем рынке.
Pagerduty является глобальным лидером в области управления цифровыми операциями, преобразующий критическую работу для современных предприятий. PageRduty Operations Cloud объединяет AIOP, автоматизацию, операции обслуживания клиентов и управление инцидентами для создания гибкой, устойчивой и масштабируемой платформы. Узнайте больше последних из Pagerduty Trending Stories YouTube.com/thenewstack Tech, быстро движется, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Кристина Диас-менеджер по маркетингу продуктов в Pagerduty и поддерживает область продукции управления инцидентами с помощью инициатив на рынке. Ее 5+ лет опыта включает в себя стратегии маркетинга продуктов и аналитику данных на глобальных рынках. До Pagerduty она построила … Подробнее от Кристины Диас