PagerDuty спонсировал этот пост.
Обеспечение надежности нового продукта или функции при запуске имеет решающее значение. Где бы он ни находился в предложении организации, блестящий новый инструмент или возможность на первый взгляд могут выглядеть хорошо, но клиенты заметят, если он работает плохо или влияет на производительность. Разработчики должны включить надежность во время запуска в свои рабочие процессы, чтобы они могли помочь более широкой операционной команде подготовиться к успешному запуску.
Однако надежность продукта любого нового запуска — это не одноразовый процесс. Вместо этого и разработчики, и операционные команды играют ключевую роль в обеспечении гладкого запуска продуктов.
Для разработчиков подготовительные этапы включают в себя непрерывное тестирование, создание новых проектов в выделенных средах, сохранение устаревших приложений в обычном режиме и обработку сложных развертываний с той тщательностью, которой они заслуживают.
С другой стороны, операционные группы должны иметь возможность мониторинга, следить за изменениями производительности после выпуска и планировать ротацию дежурств до того, как новые услуги будут представлены пользователям. Вместе эти две команды могут помочь предотвратить негативное влияние на клиентов нового запуска.
Надежность – это больше, чем просто защита клиентов. Есть три ключевые причины, по которым организации отдают приоритет надежности во время запуска:
1. Сложные распределенные системы
Современные предприятия построены на невероятно сложных экосистемах. Хотя монолитные архитектуры все еще существуют, они часто включают в себя ряд дополнительных инструментов, которые добавлялись со временем по мере расширения бизнеса или необходимости в них для предложения новых возможностей своим клиентам. Эти сложные системы означают, что запуск нового продукта или возможности требует от инженеров работы с облачными сервисами и сторонними платформами. Более того, крупные корпоративные системы и команды часто распределены по всему миру, что еще больше увеличивает их сложность, а иногда и приводит к задержкам в обслуживании. В целом сложность этих систем означает, что любой новый запуск потенциально может нарушить хрупкий баланс и вызвать сбой в обслуживании.
Чтобы снизить риск, надежность во время запуска всегда должна быть в центре внимания. Это предполагает постоянное развитие мышления, которое продвигает лучшие практики DevOps, включая принятие подхода «сдвига влево», при котором стабильность и безопасность имеют приоритет с самого начала каждого цикла разработки, а также безопасные методы кодирования и CI/CD, которые способствуют регулярному тестированию и проверке кода. Без усиления такого поведения среди команд запуск продуктов может привести к тому, что организации станут более уязвимыми к перебоям в обслуживании, утечкам данных и системным сбоям.
2. Соблюдение правил
Надежность во время запуска — это не только управление внутренними системами. Поддержание онлайн-услуг и предоставление своевременных отчетов о любых инцидентах являются ключом к полному соблюдению нормативных требований. Соблюдение требований становится все более важным, поскольку регулирующие органы устанавливают все более строгие требования к отчетности об инцидентах.
Например, в Великобритании такие нормативные акты, как CP24/28 Управления финансового надзора и CP17/24 Управления пруденциального регулирования, требуют от компаний, оказывающих финансовые услуги, наличия подробной политики управления инцидентами, четких процедур эскалации и механизмов быстрой отчетности. Аналогичным образом, в Соединенных Штатах несколько отраслей обязаны сообщать о простоях, включая финансы и телерадиовещание, которые предъявляют требования к отчетности в Комиссию по ценным бумагам и биржам (SEC) и Федеральную комиссию по связи (FCC) соответственно.
Несоблюдение правил приведет к штрафам и репутационному ущербу — тяжелой цене за сбой, которого можно избежать еще на этапе разработки.
3. Обеспечение хорошего качества обслуживания клиентов
Запуск новых продуктов должен активно улучшать услуги, предоставляемые клиентам, и в то же время быть непрерывным, не прерывая существующие условия. Благодаря соглашениям об уровне обслуживания (SLA), определяющим минимальные требования к производительности, обеспечение хорошего качества обслуживания клиентов выходит за рамки «приятно иметь». Это неотъемлемая часть услуг, предоставляемых бизнесом.
Во многих случаях соглашения об уровне обслуживания также предлагают клиентам «карту выхода из тюрьмы» в случае частых или длительных перебоев в обслуживании. Сбои в работе могут подорвать доверие к существующей клиентской базе, но они также приведут к оттоку клиентов, что нанесет ущерб доходам организации.
Чтобы свести к минимуму потенциальный ущерб для прибыли организации, команды инженеров должны применять лучшие практики DevOps, такие как внедрение конвейера CI/CD, позволяющего выпускать регулярные выпуски каждый день без простоев, или содействие межфункциональному сотрудничеству на протяжении всего цикла поставки программного обеспечения, чтобы стимулировать быстрое устранение неполадок. С другой стороны, оперативные группы могут оказывать поддержку, внедряя систему управления инцидентами, которая способствует своевременному информированию и решению проблем, когда они возникают. Это требует более широкого наблюдения за данными, чтобы информация могла передаваться между командами в случае инцидента. Вместе эти команды могут помочь своей организации выполнить все требования соглашений об уровне обслуживания для защиты доходов и постоянного предоставления первоклассного обслуживания своим клиентам.
Достижение движущейся цели «хорошего» развития
С течением времени, по мере развития предприятий и методов развития, то, что можно считать «хорошим», не стоит на месте. За последние 20 лет произошел кембрийский взрыв программного обеспечения, а также усовершенствований лучших практик, изменений в показателях и новых возможностей мониторинга. Это сочетается с тем, что корпоративные системы за тот же период становятся все более сложными, а это означает, что поддержание надежности во время запуска становится очень сложной задачей для инженерных и эксплуатационных групп. Только благодаря тесному сотрудничеству эти команды смогут гарантировать, что запуск новых продуктов и функций обеспечит отличное качество обслуживания клиентов.
PagerDuty — мировой лидер в области управления цифровыми операциями, преобразующий критически важную работу современных предприятий. PagerDuty Operations Cloud сочетает в себе AIOps, автоматизацию, операции по обслуживанию клиентов и управление инцидентами, создавая гибкую, отказоустойчивую и масштабируемую платформу. Узнайте больше Последние новости от PagerDuty ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Мэнди Уоллс — сторонник DevOps в PagerDuty. Она регулярно выступает на технических конференциях и является автором официального документа O’Reilly Media «Построение культуры DevOps». Она заинтересована в появлении новых инструментов и… Читать далее от Мэнди Уоллс