Pagerduty спонсировал этот пост.
Потребители в значительной степени полагаются на постоянные отрасли, такие как банковское дело, коммунальные услуги и здравоохранение. Поскольку эти сектора продолжают расширять свои цифровые и онлайн -предложения, обеспечение непрерывной деятельности является более насущной, чем когда -либо, потому что потребители все чаще зависят от цифровых услуг в своей повседневной жизни. Рассмотрим последствия того, что клиенты не смогут проверить свои балансовые остатки, заказать назначение врача или оплатить счет за электроэнергию.
Расширенное время простоя обслуживания может нанести значительный финансовый и репутационный ущерб, при этом недавние исследования показали, что средняя стоимость за инцидент составляет почти 800 000 долларов. Если учесть, что инциденты, затрагивающие потребителей, выросли на 43% в 2024 году, увеличение частоты может привести к выходу за расходы на эксплуатацию с каждым отключением, оставляя клиентов и доходы в беде.
Одним из самых больших факторов, ограничивающих способность организации реагировать, является предупреждающий шум. Технические команды нарушаются путем расщепления оповещений, нерелевантных или низких приоритетных оповещений или поток оповещений от разных систем, вытекающих из одной и той же основной причины. «Шум» этих оповещений отвлекает от самой важной задачи: исправление.
Итак, какие шаги можно предпринять, чтобы упростить управление инцидентами и помочь сохранить жизненно важные услуги в Интернете?
1. Получите целостное представление о всех оповещениях для легкой приоритеты
Критические отрасли получают большое количество оповещений по нескольким причинам: они являются очень привлекательными целями для плохих субъектов из -за конфиденциальных данных, которыми они управляют, их операционные системы часто работают на устаревших технологиях, и они должны оставаться «всегда» для доступности потребителей.
Без автоматического обнаружения аномалий объем оповещений может легко расти за пределами способности человека управлять. ИТ -команды могут быть легко перегружены некритическими оповещениями, поскольку проблемы непрерывно помечаются, особенно без автоматических систем сортировки для определения серьезности инцидента.
В руках, устаревших системах билетов, каждое предупреждение должно быть проверено, даже если оно не требует восстановления с помощью человека. Этот трудоемкий процесс создает труд для ИТ-команд и сокращает время, доступное для них для внесения улучшений в системах их организации.
Организации, работающие в критических отраслях, должны внедрить одну панель стекла, которая дает видимость по сравнению с каждым повышенным предупреждением. Чтобы эта платформа была эффективной, она должна автоматически сортировать и классифицировать оповещения на основе их серьезности и масштаба, помогая командам определить, какие оповещения требуют ручного восстановления, а какие могут быть разрешены с помощью автоматических рабочих процессов.
2. Используйте автоматизация, чтобы определить, когда привлекать людей
Следующим шагом организации должны предпринять, чтобы сохранить свои операции 24/7, является уменьшение радиуса взрыва инцидентов. Чтобы выявить инциденты и аномалии раньше и быстрее, организации должны интегрировать автоматизацию в свой ответ инцидента, генерировать оповещения и направлять их к соответствующим членам команды.
Инструменты автоматического мониторинга инцидентов могут значительно ускорить управление инцидентами, гарантируя, что, когда вмешательство человека необходимо, правильные члены команды предупреждают об инциденте по мере его возникновения. Более целенаправленный подход к управлению инцидентами также позволяет командам избегать «военных комнат» и предотвращать разрозненные члены команды в кратчайшие сроки. Это важный шаг в предотвращении труда, стресса и выгорания для респондентов, позволяющих им сосредоточиться на вождении инноваций.
3. Используйте инструменты автоматического восстановления для отклика
После того, как оповещения обнаруживаются и классифицируются, и человеческие команды были собраны, чтобы исправить проблемы, при необходимости, организации должны начать доверять автоматизированным рабочим процессам для разрешения менее серьезных, более распространенных инцидентов.
Внедрение этих процессов требует двух действий от организаций.
Во -первых, это приобретение и интеграция правильных инструментов для автоматического применения исправлений, которые могут включать автономные агенты ИИ или менее сложные рабочие процессы и сценарии, особенно для известных и повторяющихся вопросов.
Второй более сложный: сдвиг мышления. Крайне важно укрепить доверие, что автоматизированные инструменты могут разрешить незначительные инциденты и понимать, что они сэкономит время ИТ -команд, сократив часы, потраченные на борьбу с пожарами.
Внесение этих изменений принесет серьезные победы. Внедрение автоматических рабочих процессов для восстановления сократит время простоя системы (и обслуживания), обеспечивая невыполнение клиентов с банковских счетов или медицинских услуг. Он также освободит ИТ -команды для инноваций и создания улучшенного, более плавного обслуживания клиентов, обеспечивая при этом услуги, на которые они полагаются, имеют высочайшее качество.
Когда шум слишком громкий, используйте автоматизацию, чтобы отключить ее
Процессы управления унаследованными операциями больше не проходят для организаций, которые предоставляют основные услуги. Потребители не могут позволить себе быть заблокированными из систем в течение нескольких часов в случае отключения, а поставщики услуг больше не могут позволить себе тратить часы разрешения инцидентов без прозрачности.
Потребители ожидают удобства в сегодняшнем цифровом мире с основными услугами под рукой. Организации должны принять автоматизацию в своих системах управления операциями для обеспечения уровня спроса потребителей услуг. Это снизит бремя оповещений и инцидентов в ИТ -командах, что позволит им сосредоточиться на разрешении серьезных инцидентов. Это также позволит им гарантировать, что важные услуги остаются в Интернете для потребителей и что они постоянно улучшаются, чтобы значительно облегчить жизнь потребителей.
Modern Enterprises Trust PageRduty для управления цифровыми операциями, включая реагирование на инциденты, AIOPS, автоматизацию процессов и CSOPS. Благодаря облачному облаку Pagerduty Operations организации могут сжать затраты, ускорить производительность и поддерживать бесшовные цифровые впечатления. Узнайте больше последних из Pagerduty Trending Stories YouTube.com/thenewstack Tech, быстро движется, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Эндрю Штутц-старший директор по продукту и GM в Pagerduty, где он возглавляет межфункциональную команду, ответственную за бизнес по автоматизации Pagerduty. Перед автоматизацией Эндрю лидировал команды, отвечающие за запуск новых продуктов Pagerduty, включая AIOPS, CSOPS, автоматизация рабочих процессов … Подробнее от Эндрю Штуца