Pagerduty спонсировал этот пост.
Инженеры по управлению инцидентами-чрезвычайно занятые люди, и «занятость» ухудшается только тогда, когда они вынуждены тратить свое рабочее время, разрешая инциденты, которые имеют высокий объем, но низкий приоритет. Недостатком этой постоянной рабочей нагрузки является то, что, когда серьезный инцидент попадает, команды управления инцидентами уже устали, напряжены и потенциально недоступны. Эти факторы объединяются для задержки разрешения инцидентов, что может повредить доходам.
Тем не менее, есть альтернативные модельные организации, чтобы сократить ручной труд для инженеров.
Инструменты управления инцидентами, поддерживаемыми AI— и автоматизацией, становятся гораздо более распространенными и могут нарушить цикл ручного ответа на постоянные инциденты с низким приоритетом. Чтобы избежать каких -либо нарушений бизнеса, крайне важно, чтобы организации быстро определили, какие процессы и рабочие процессы безопасны для разрешения с помощью ИИ и автоматизации, а какие все еще нуждаются в руководстве.
Понимание приоритета инцидента
Первым шагом является получение глубокого понимания категоризации и приоритетов инцидентов. Стандартный подход отрасли заключается в классификации инцидентов по шкале, основанной на их приоритете. Это, как правило, варьируется от P1 до P5, но также может быть SEV-1 до SEV-5 (с SEV, стоящим за тяжесть). P1 считаются наиболее потенциально разрушительными инцидентами, в то время как P5 сидят в нижней части шкалы.
От большинства до наименее тяжелых инцидентов должны быть классифицированы на основе их влияния как на организацию, так и на клиентов. Прежде всего, при категоризировании инцидентов организации всегда должны предполагать худшее, чтобы гарантировать, что инциденты полностью разрешаются.
- P1 должен быть зарезервирован для критических вопросов, которые гарантируют публичное уведомление и связь с исполнительными командами. Эти инциденты приводят к крупномасштабному воздействию клиентов, включая серьезное нарушение функциональности при нарушении SLA. Эти инциденты с высшим приоритетом также могут раскрывать данные клиента и должны быть быстро сдержаны.
- Точно так же P2 — это критические системы системы, которые влияют на способность многих клиентов использовать продукт. Они могут включать в себя недоступность веб -приложения или деградацию производительности для большинства или всех пользователей.
- Инциденты P3 являются незначительными проблемами для клиентов, которые требуют немедленного внимания со стороны владельцев услуг. Если они остаются необработанными, они могут перерасти в P2.
- P4 используется для обозначения незначительных проблем, которые требуют действия, но не влияют на способность клиентов использовать продукт. Это могут быть проблемы с производительностью, отдельные сбои хоста или отсроченные сбои работы.
- Наконец, P5s являются инцидентами с самым низким приоритетом. К ним относятся косметические проблемы или ошибки, но не влияют на способность клиента использовать продукт.
P1 и P2 представляют основные инциденты. Всякий раз, когда это происходит, восстановление, возглавляемое человеком, должно быть дефолтом, и всеобъемлющие процессы реагирования на инциденты с человеком в цикле должны быть инициированы, чтобы избежать серьезного репутационного или финансового ущерба. Тем не менее, инженеры часто тратят свое время на реагирование на инциденты с низкой острой, которые по-прежнему требуют ручного вмешательства, например, поднятие билетов до решения проблемы. Эти ручные рабочие процессы предоставляют организациям важную возможность представить ИИ и автоматизацию, чтобы позволить инженерам сосредоточиться на высокоприоритетной работе.
автоматизация и преимущество AI
Хотя возможности ИИ и автоматизации становятся все более распространенными в инструментах и платформах управления операциями, они должны приносить значимые преимущества для инженеров для обеспечения стоимости. Исправление, возглавляемое человеком, всегда будет играть роль в управлении инцидентами, особенно для серьезных и высокоприоритетных инцидентов. Тем не менее, инструменты управления операциями могут использоваться для остановки цикла инженеров вручную, когда они встречаются вручную, каждый раз.
Когда проблема обнаружена, инструменты искусственного интеллекта могут использоваться для снижения шума для респондентов путем подавления дублирующих или низких приоритетных оповещений. Это гарантирует, что инженеры могут сосредоточиться исключительно на действенных событиях, позволяя им стратегически сосредоточиться на исправлениях с более высоким приоритетом. Ведущие платформы управления операциями также включают функции AI Operations (AIOPS) для автоматизации ранних стадий каждого инцидента, включая сортировку, снижение шума, группировку оповещения и корреляцию изменений. Избавление инженеров от бремени этих рабочих процессов напрямую снижает усталость оповещения, а также улучшает операции с помощью более оптимизированного обнаружения инцидентов.
Инструменты автоматизации также могут использоваться для улучшения отклика и восстановления инцидентов. Например, Runbooks могут быть связаны с системами искусственного интеллекта, чтобы общие проблемы, такие как перезапуск неудачного обслуживания или масштабирования ресурсов, решаются без вмешательства человека. Растущая доступность агентских инструментов ИИ также поможет сократить рабочие нагрузки инженеров, самостоятельно управлять рутинными задачами, чтобы снизить эксплуатационные расходы и ускорить разрешение инцидентов.
автоматизация также может быть использована для повышения наблюдаемости по всему стеку организации. Процесс предоставляет дополнительную систему для анализа факторов, способствующих содействию, и помогает инженерам идентифицировать корреляции по нескольким системам. Инженеры также могут использовать инструменты искусственного интеллекта для сортировки, связывая сигналы между журналами, следами и метриками. Вместе эти возможности помогают инженерам быстро определить факторы, способствующие инциденту, не требуя вручную искать в нескольких частях их системы.
Инструменты искусственного интеллекта могут даже принести ценность во время пост-инцидентных обзоров обучения. Генеративные возможности AI (Genai) поддерживают создание контента для суммирования инцидентов или для создания сроков инцидентов для более быстрых посмертных.
Все эти варианты использования демонстрируют ценность ИИ и автоматизации при поддержке инженеров для разрешения инцидентов более эффективным образом.
Освободите своих инженеров, чтобы получить ценность
ИИ и автоматизация являются будущим управления операциями. Проще говоря, нельзя ожидать, что инженеры вручную решат проблемы по всему конвейеру по управлению инцидентами. Им нужна поддержка инструментов, которые могут уменьшить их труд.
Разгружая мониторинг, устранение неполадок, масштабирование и обычные операционные задачи в ИИ, организации помогут своим инженерам потратить меньше времени в пожаре и больше времени на то, чтобы сосредоточиться на высокой стоимости. Этот сдвиг уменьшает выгорание, повышает надежность обслуживания и повышает эффективность эксплуатации, при этом помогая улучшить повседневный опыт инженера.
Pagerduty является глобальным лидером в области управления цифровыми операциями, преобразующий критическую работу для современных предприятий. PageRduty Operations Cloud объединяет AIOP, автоматизацию, операции обслуживания клиентов и управление инцидентами для создания гибкой, устойчивой и масштабируемой платформы. Узнайте больше последних из Pagerduty Trending Stories YouTube.com/thenewstack Tech, быстро движется, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Mandi Walls является защитником DevOps в Pagerduty. Она является постоянным докладчиком на технических конференциях и является автором «Белой бумаги» O’Reilly Media «Построение культуры DevOps». Она интересуется появлением новых инструментов и … Подробнее от стен Манди