Pagerduty спонсировал этот пост.
Письмо было на стене задолго до глобальных отключений ИТ -счетов в июне 2025 года или июля 2024 года, которые нарушили деятельность в разных отраслях. В течение многих лет организации вкладывали ресурсы в меры безопасности, в то же время потенциально упуская из виду критический аспект их деятельности: устойчивость. Предприятия должны принимать эти инциденты в качестве пробуждения, чтобы пересмотреть, как они уравновешивают эти два важных приоритета в своих оперативных стратегиях.
Дисбаланс резиденции безопасности
Безопасность и устойчивость не должны быть конкурирующими приоритетами, но именно это именно так ИТ -организации относились к ним. В то время как команды безопасности укрепляли периметр, устойчивость часто занимала заднее место. Современная цифровая инфраструктура требует как не подлежащих обсуждению компонентов. Безопасная система, которая не может восстановить быстро, становится ответственностью, в то время как устойчивая система с пробелами безопасности создает неприемлемый риск.
Недавние исследования показывают поразительную статистику: 86% руководителей признают, что они переоценили безопасность за счет оперативной устойчивости. Речь идет не столько снижению важности безопасности и больше о признании того, что безопасность и устойчивость не являются ни одним из предложений, а скорее двух столбов, которые должны стоять вместе.
Зачем баланс важнее, чем когда -либо
Несколько факторов сходились, чтобы стимулировать эту стратегическую перебалансировку:
- Повышенная сложность системы: Современные цифровые операции охватывают несколько сред, бесчисленные микросервисы и сложные зависимости.
- Императив автоматизации: Ручные процессы оказались недостаточными для управления современной инфраструктурой.
- Растущие ожидания клиентов: В нашей всегда в экономике даже незначительные сбои могут иметь серьезные воздействия на клиента, что отрицательно влияет на репутацию бизнеса и бренда.
- Экономическое давление: Организации должны максимизировать время безотказной работы при оптимизации использования ресурсов.
Путь к устойчивой и безопасной операциям
Переход к более устойчивым операциям — это не только смещение фокуса от безопасности или просто реализацию новых инструментов. Речь идет о достижении лучшего баланса между этими дополнительными приоритетами, что требует переосмысления того, как организации реагируют и учится на оперативных проблемах.
Ведущие организации сосредотачиваются на трех взаимосвязанных столпах:
- Автоматизированные возможности ответа: Поскольку миллисекунды имеют значение больше, чем когда-либо, времена реагирования только для человека больше не хватает. Современная устойчивость требования:
-
- Обнаружение инцидентов с AI-Augment, которое может упустить модели людей.
- Прогнозирующая аналитика для выявления потенциальных проблем, прежде чем они влияют на пользователей.
- Системы самовосстановления, которые могут автоматически решать общие проблемы, сокращая время труда и отклика.
- Межфункциональное сотрудничество: Люди должны быть в центре операционной устойчивости, а это значит:
-
- Разрушение традиционных бункеров между разработкой, операциями, безопасностью и командами поддержки.
- Создание единых фреймворков управления инцидентами, которые используют опыт каждой команды.
- Создание общего владения целями надежности в организации.
- Системы непрерывного обучения: Наиболее устойчивыми организациями — это те, которые превращают каждый инцидент в возможность улучшения через:
-
- Внедрение надежных процессов обзора после инцидента.
- Построение баз знаний из прошлых инцидентов.
- Создание петель обратной связи для постоянного улучшения.
Измерение успеха: три измерения стоимости
Поскольку организации развивают свой подход к балансированию безопасности и устойчивости, традиционных показателей доступности больше не хватает. Передовые организации отслеживают ценность в трех критических аспектах:
- Защита доходов: Это измерение количественно определяет потерянный доход во время перебоев (часто тысячи долларов в час за критические услуги) и как устойчивость и инвестиции в безопасность снижают эти убытки. Содержив радиус взрыва инцидентов и внедряя более быстрые механизмы восстановления, организации сохраняют потоки доходов и защищают транзакции клиентов.
- Эффективность эксплуатации: Это измерение измеряет человеческую стоимость реагирования на инциденты, от ночных эскалаций до инженеров L1 и команд поддержки. Отслеживая улучшения в размере команд, скорости разрешения и использования ресурсов во время инцидентов, организации могут количественно оценить операционную экономию. Эффективные стратегии уменьшают количество людей, втянутых в инциденты и минимизируют разрушение команды.
- Инновационная защита: Возможно, наиболее упускаемой из виду затратами является влияние на инновационные мощности. Это отражает, как инженерные часы восстанавливаются от управления инцидентами и перенаправлены на основные бизнес -инициативы. Когда разработчики постоянно не вступают в пожак, дорожные карты продвигаются, а технический долг уменьшается. Защита инженерных ресурсов сохраняет скорость инноваций и конкурентный импульс, поскольку команды сосредоточены на строительстве, а не на исправлении.
Глядя в будущее
Поскольку серьезные отключения становятся все более частыми, и каждую минуту простоя затрагивает тысячи, способность адаптироваться и восстановление не просто оперативная необходимость; Это бизнес -императив.
По мере того, как мы переходим к 2025 году, организации, которые процветают, будут те, которые признают эксплуатационное превосходство, являются успешным балансом безопасности и устойчивости. Путь вперед ясен: внедрение принципов безопасности в планирование устойчивости и соображения устойчивости в стратегии безопасности с нуля.
Результат? Организации оснащены не только для выдержания сбоев, но и превратить операционные проблемы в конкурентные преимущества.
Pagerduty является глобальным лидером в области управления цифровыми операциями, преобразующий критическую работу для современных предприятий. PageRduty Operations Cloud объединяет AIOP, автоматизацию, операции обслуживания клиентов и управление инцидентами для создания гибкой, устойчивой и масштабируемой платформы. Узнайте больше последних из Pagerduty Trending Stories YouTube.com/thenewstack Tech, быстро движется, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Кристина Диас-менеджер по маркетингу продуктов в Pagerduty и поддерживает область продукции управления инцидентами с помощью инициатив на рынке. Ее 5+ лет опыта включает в себя стратегии маркетинга продуктов и аналитику данных на глобальных рынках. До Pagerduty она построила … Подробнее от Кристины Диас