PagerDuty спонсировал этот пост.
Роль командира инцидента несет в себе высокую когнитивную нагрузку. Тактическая координация происходит между распределенными командами, часто посредством трудоемких ручных процессов. Поддержание ситуационной осведомленности означает ручное агрегирование данных из нескольких инструментов, назначение задач, отслеживание обновлений и перевод между системами, в то время как время простоя и влияние на клиентов растут.
Агенты ИИ могут взять на себя этот операционный уровень. Руководитель инцидента становится не микроменеджером, а скорее стратегом, перекладывая сбор и синтез контекста, чтобы сосредоточиться на наиболее важных решениях: каких экспертов в конкретной области мобилизовать, какой стратегии реагирования следовать и каким улучшениям расставить приоритеты после разрешения инцидента. Однако для этого необходимо определить наилучшее время, когда следует использовать агенты ИИ и как им следует работать бок о бок с людьми.
Вот четыре сценария, в которых агенты ИИ могут активно переопределить роль руководителя инцидента на протяжении всего жизненного цикла инцидента.
1. Сортировка: от затрат на координацию к стратегическому руководству
До агентов
Первая задача руководителя инцидента — организационная. Кого необходимо привлечь в группу реагирования? Какой контекст им нужен?
Пока участники реагирования ждут указаний, руководителю инцидента может быть сложно сопоставить информацию из нескольких источников, решая, каких экспертов мобилизовать, и пытаясь сформировать последовательную гипотезу для руководства ответными действиями. Каждая минута, потраченная на этот этап открытия, увеличивает влияние на клиентов и бизнес.
После агентов
Специализированный ИИ-агент может поставить командующего на три шага впереди инцидента, эффективно обходя необходимость организовывать сбор данных между командами и инструментами. Агент может быстро предоставить разведывательную информацию, в том числе:
- Вероятная основная причина
- Подтверждающие доказательства (коррелированные сигналы, аналогичные прошлые инциденты, недавние изменения)
- Рекомендуемая стратегия реагирования и соответствующие инструкции
Руководитель инцидента может немедленно оценить гипотезу, уточнить стратегию реагирования и мобилизовать нужных людей в правильном контексте. Когнитивная нагрузка человека смещается от «Что мы знаем?» на «Каков наш лучший путь вперед?» — позволяя командующему инцидентом стратегически руководить, в то время как агент занимается подготовительной работой по расследованию.
2. Коммуникация: от отслеживания статуса до обновлений в реальном времени
До агентов
Обновления статуса необходимы, но отнимают много времени. В среднем каждые 30 минут во время критического инцидента член группы (часто руководитель инцидента или специальный руководитель по связям с общественностью) пытается собрать разрозненную информацию и подготовить обновленную информацию. Если темп снижается, появляются пробелы и доверие заинтересованных сторон подрывается, как внутри бизнеса, так и среди клиентов. А когда заинтересованные стороны не получают ожидаемых ответов, они начинают напрямую обращаться к группе реагирования на инциденты, отнимая ценные ресурсы от решения проблем.
После агентов
Агенты ИИ могут автоматически расшифровывать звонки об инцидентах, генерировать структурированные сводки инцидентов и составлять обновления для конкретных пользователей, включая ключевые данные по:
- Текущий статус инцидента
- Влияние на клиента
- Ключевые решения и действия, принятые на данный момент
- Рекомендуемые следующие шаги
Руководитель инцидента проверяет точность, настраивает тон и уровень детализации и отправляет обновление. Все своевременно находятся в курсе событий, без необходимости отвлекаться от работы по реагированию, а когда в инцидент попадают новички, ИИ может догнать их о том, что происходит, не требуя, чтобы кто-то тратил время на подведение итогов ситуации.
3. Исправление: от ручного выполнения к автоматическим исправлениям
До агентов
Как только основная причина определена, группам реагирования необходимо принять меры. Однако книги Runbook часто могут быть устаревшими, неполными или, что еще хуже, отсутствовать. Выполнение исправления требует принятия ручных мер под давлением, чтобы быстро восстановить обслуживание. Руководитель инцидента наблюдает за этим с ограниченной видимостью, а это означает, что утверждения могут происходить по сторонним каналам с минимальным контекстом, и редко бывает время задокументировать, что сработало в следующий раз.
После агентов
Путь к исправлению ситуации может стать более ясным, поскольку агенты ИИ могут заранее предлагать оптимальные действия, в то время как команды сохраняют контроль безопасности и человеческий надзор. На этом этапе ИИ-агент может:
- Рекомендовать исправление на основе прошлых способов исправления.
- Немедленно предложите соответствующие инструкции, которым можно будет следовать.
- Выполните исправление с одобрения человека и подтвердите восстановление службы.
- Создайте сценарий, который поможет предотвратить подобные проблемы в будущем.
Роль руководителя инцидента смещается от координации ручного исполнения к управлению автоматическим разрешением. Изменения с высоким уровнем риска требуют явного одобрения, но хорошо проверенные исправления с низким уровнем риска могут выполняться автономно с ведением журнала аудита. Каждое действие отслеживается, каждое исправление документируется, а институциональные знания улучшаются с каждым инцидентом.
4. Обучение: от борьбы после инцидента к практическим выводам
До агентов
Инцидент устранен. Документирование того, что произошло, обычно означает прокрутку веток чата, получение журналов и перекрестную проверку развертываний. Решения, принятые по побочным каналам или переданные устно, теряются. Вместо того, чтобы извлекать уроки, команды тратят время на то, чтобы собрать воедино «что», а не «почему».
После агентов
Агент ИИ собирает временную шкалу инцидента сразу после инцидента, собирая данные из нескольких источников, в том числе:
- Интеллектуальные сводки инцидентов на основе истории чата и расшифровки вызовов инцидентов.
- Понимание того, что вызвало или способствовало возникновению проблемы, с помощью журналов мониторинга.
- Предпринятые действия по исправлению ситуации, кто и когда их выполнил, согласно журналам инцидентов и чатов.
Ценность агентов ИИ выходит за рамки документации. Агент использует эти расширенные данные об инцидентах для улучшения модулей Runbook, определения возможностей автоматизации и выявления шаблонов, которые помогают предотвратить подобные проблемы. Время больше не тратится на реконструкцию того, что произошло, а вместо этого посвящено определению областей и способов улучшения. Руководитель инцидента становится движущей силой практических циклов обучения, которые повышают оперативную устойчивость и сокращают повторяющиеся инциденты.
Путь вперед
По мере того, как агенты ИИ берут на себя повторяемую рутинную работу, руководители инцидентов получают время для принятия стратегически важных решений. Делегирование всегда было частью того, что делает руководитель инцидента, когда давление велико. Единственное изменение теперь заключается в том, что в команде стало больше «рук», которым можно делегировать полномочия.
Благодаря агентам ИИ группы реагирования и командиры, которые их возглавляют, могут сосредоточиться на работе, требующей людей, и использовать агентов, поскольку помощники ИИ всегда нуждались в реагировании на инциденты.
PagerDuty — мировой лидер в области управления цифровыми операциями, преобразующий критически важную работу современных предприятий. PagerDuty Operations Cloud сочетает в себе AIOps, автоматизацию, операции по обслуживанию клиентов и управление инцидентами, создавая гибкую, отказоустойчивую и масштабируемую платформу. Узнайте больше Последние новости от PagerDuty ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Дебора Камбе — менеджер по маркетингу продуктов в PagerDuty, поддерживающая инициативы компании по выходу на рынок по реагированию на инциденты. Ее более чем 10-летний опыт работы в качестве специалиста по маркетингу включает работу медиа-менеджером в PlayStation и консультантом по социальным сетям в Yorn,… Подробнее от Деборы Камбе