PagerDuty спонсировал этот пост.
Приближается сезон отпусков, а вместе с ним и заморозки перемен. Инженерная традиция приостанавливать развертывание в это чудесное, но неукомплектованное время года может снизить перебои в обслуживании даже при резком росте цифрового трафика.
Но инциденты все равно могут произойти.
Одна вещь, которая застает многих инженеров врасплох во время заморозки изменений, заключается в том, что службы, которые обычно развертываются каждый день или около того, могут внезапно обнаружить новые режимы сбоя, если их оставить работать на несколько недель. Это делает интеллектуальный мониторинг и быстрое реагирование еще более важными во время праздников.
Вот и хорошие новости: искусственный интеллект может помочь отфильтровать шум, раньше обнаружить аномалии и принять более быстрые и разумные меры, что облегчит вам возможность пережить еще один отпуск по вызову.
Вот три способа, которыми ИИ может помочь инженерным командам лучше подготовиться к курортному сезону.
1. Целенаправленное действие со встроенным искусственным интеллектом
В то время, когда возможности команды гораздо более ограничены, очень важно определить, какие проблемы действительно требуют внимания. Но даже в условиях заморозков группы реагирования могут получить шумные оповещения, поступающие через их инструменты. ИИ может значительно снизить шум оповещений, улучшить видимость инцидентов и исключить ручную повторяющуюся работу.
При внедрении в рабочие процессы управления инцидентами ИИ может превращать сигналы в интеллектуальные действия:
- Машинное обучение (МО) интеллектуально подавляет и группирует оповещения, поэтому помечаются только значимые проблемы.
- Оповещения могут быть дополнены данными, связанными с обслуживанием, а также ключевыми показателями/журналами, что исключает догадки о проблеме, ее влиянии и о том, кто должен ее решать.
- автоматизация на основе событий может автоматически направлять инциденты нужной команде и запускать диагностику еще до вмешательства человека.
Меньшее количество инцидентов, их более обширное количество и более правильная маршрутизация означают меньшую утомляемость и более быстрое подтверждение, что особенно важно, когда команды хотят фактически отключиться и провести время с близкими, а не отвечать на звонки в неурочные часы.
Но когда инциденты все же происходят, немедленное наличие правильного контекста становится решающим, особенно для сотрудников реагирования, возвращающихся из отпуска.
2. Ускорение сортировки и определение того, что работает
Представьте себе: ответчик, который только что вернулся с PTO, внезапно получает пинг. Вместо того, чтобы рыться в обсуждениях чата, информационных панелях и журналах, чтобы собрать воедино происходящее, агент ИИ может собрать соответствующий контекст еще до того, как ответчик начнет работать над проблемой, ускоряя реагирование.
Давайте посмотрим, как может работать ИИ-агент:
- Специализированный агент по обеспечению надежности сайта (SRE) автоматически извлекает и анализирует соответствующие метрики и журналы, выявляет похожие шаблоны инцидентов и обобщает результаты, устраняя догадки при сортировке.
- Агент может порекомендовать действия по исправлению ситуации, опираясь на все, что он узнал из ваших инцидентов.
- В случае успеха эти пути исправления могут быть преобразованы агентом в интеллектуальные модули Runbook, которые помогут предотвратить подобные проблемы в будущем. ИИ также может синтезировать закономерности в нескольких инцидентах, чтобы выявлять системные проблемы и рекомендовать превентивную автоматизацию.
Работая бок о бок с агентами ИИ, команды становятся сильнее с каждым происшествием. Спасатели тратят меньше времени на то, чтобы отвлекаться, и больше времени на решение проблем, создавая более устойчивые операции, которые потребуют меньше героизма в следующий праздничный сезон.
3. Более разумное принятие решений и коммуникация
Когда проблема возникает во время заморозки изменений, своевременная связь и прозрачное сотрудничество играют еще большую роль в эффективном управлении инцидентами. Однако командам сложно разрешать инциденты, в то же время удовлетворяя требования к общению с заинтересованными сторонами и службами реагирования. Это увеличивает среднее время ремонта (MTTR) и расстраивает сотрудников служб реагирования, которые чувствуют, что их тянет в двух разных, но одинаково важных направлениях.
Генеративный и агентный ИИ может автоматизировать эти процессы, давая службам реагирования отдохнуть от поиска и составления информации и сосредоточиться на решении проблем. Вот несколько примеров этого в действии:
- ИИ может заранее суммировать статус инцидента, чтобы легко вводить команды в курс дела в чате.
- Агент-писец может автоматически расшифровывать звонки об инцидентах и объединять их с историей чата, чтобы фиксировать ключевые решения и следующие шаги.
- ИИ ведет автоматизированный и последовательный учет всех действий, предпринятых во время инцидента, что позволяет командам быстро генерировать обновления статуса, в то же время делая обзоры после инцидента больше направленными на извлечение информации, а не на реконструкцию событий.
Команды могут получить общую картину инцидента за считанные минуты, не ставя под угрозу концентрацию лица, осуществляющего реагирование, или необходимость заинтересованной стороны оставаться в курсе.
Сделайте ИИ своим праздничным подарком по вызову
Инциденты никогда не требуют выходных, но ИИ может взять на себя большую часть когнитивной нагрузки, которая делает дежурство по вызову особенно утомительным в это время года. Эти три пьесы придадут вашему скелетному составу эффективность, необходимую для работы в качестве полноценной команды. Меньше времени на поиск контекста, меньше оповещений в 3 часа ночи, более быстрое решение и сотрудники, которые действительно могут наслаждаться своим свободным временем, зная, что они получат необходимую поддержку, когда им перезвонят.
PagerDuty — мировой лидер в области управления цифровыми операциями, преобразующий критически важную работу современных предприятий. PagerDuty Operations Cloud сочетает в себе AIOps, автоматизацию, операции по обслуживанию клиентов и управление инцидентами, создавая гибкую, отказоустойчивую и масштабируемую платформу. Узнайте больше Последние новости от PagerDuty ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Дебора Камбе — менеджер по маркетингу продуктов в PagerDuty, поддерживающая инициативы компании по выходу на рынок по реагированию на инциденты. Ее более чем 10-летний опыт работы в качестве специалиста по маркетингу включает работу медиа-менеджером в PlayStation и консультантом по социальным сетям в Yorn,… Подробнее от Деборы Камбе