Хроносфера спонсировала этот пост.
Во всей отрасли существует большое разнообразие в том, как люди интегрируют цели на уровне обслуживания (SLO) в свои рабочие процессы. Некоторые компании используют одни и те же SLO, чтобы предупредить инженеров о проблемах системы и сообщать о здоровье системы руководителям. Другие адаптируют свои SLO для различных вариантов использования.
Мы даже встретились с некоторыми организациями, которые используют SLOS только для их инженерной организации и отчетов о более высоком уровне, в то время как другие используют SLO без предупреждения вообще. Во всех случаях они приняли простую концепцию SLOS и использовали ее для повышения огромной стоимости.
Наша команда в Chronosphere была посвящена SLOS в прошлом году. Мы жили и дышали практикой не только в создании этой функции, но и в работе с нашими клиентами и потенциальными клиентами, чтобы понять проблемы, которые они сталкиваются с реализацией и в зависимости от них. Благодаря этому процессу мы получили представление не только о теории SLO, но и о том, как организации реализуют их изо дня в день.
Как отдельный участник, я усвоил решающий урок: показатели сжигания — это ужасная вещь, над которой можно зацикливаться при настройке SLO. Скорость сжигания или скорость сжигания ошибок — это скорость, с которой услуга потребляет свой бюджет ошибок. Это полезно для оценки того, как быстро сервис нарушит его SLO, и необходимо для того, чтобы SLO предупреждает хорошо работать. Однако, как конечный пользователь, фиксация на пороге скорости сжигания при настройке SLO не нужно. Надежная платформа наблюдения должна позволить вам сосредоточиться на сборе правильных метрик, чтобы измерить опыт ваших пользователей, не теряясь в мелочах.
Выполнение математики: расчет скоростей ожога
Чтобы понять, почему скорости сжигания могут быть сложными, давайте рассмотрим основные компоненты SLO. Примером SLO может быть то, что некоторые услуги должны достичь цели в 99,9% запросов, которые будут успешными в течение 30-дневного периода. В этом SLO цель составит 99,9%, индикатор уровня обслуживания (SLI) будет процентом запросов, которые были бы успешными, а временное окно будет 30 дней.
У каждого SLO также есть бюджет ошибок, который вы можете думать как приемлемое количество ошибок или времени простоя, прежде чем служба не выполнит свою цель. Бюджет ошибок рассчитывается как 1 — объектив (1-0,999 = 0,001, или 0,1%). В зависимости от того, как определяется SLO, может быть проще придумать бюджет ошибок с точки зрения минут. Чтобы рассчитать это, вы можете использовать формулу:
Бюджет ошибок (минуты) = (1 — объектива) * Второе время во времени
Конечно, частота ошибок, которую видит SLO, может быть рассчитана как плохие события / общее количество событий, или если измерение единиц времени, плохие минуты / общее количество минут.
Скоры сжигания — это без единичного числа, которое оценивает, насколько быстро бюджет ошибок будет использоваться при текущей частоте ошибок. Это определяется как простое соотношение:
Скорость сжигания в течение некоторого периода времени x = (частота ошибок по x) / (1 — объектив)
Или
Скорость сжигания в течение некоторого периода времени x = (частота ошибок в течение X) / (бюджет ошибок)
Скорость сжигания 1 указывает на то, что вы будете потреблять весь свой бюджет в конце концов своего времени SLO. Скорость сжигания превышает 1, указывает на то, что при текущей частоте ошибок у вас будет промаза SLO до конца окна SLO. Например, скорость сжигания 2 указывает на то, что вы получите ровно 0 бюджета ошибок, оставшегося в полпути через свое временное окно.
Одна вещь, которую люди часто находят в замешательстве о показателях ожога, заключается в том, что они не учитывают, как служение исторически выполнялось за все окно SLO Time, вместо этого сосредоточившись на том, как обслуживает в более позднем прошлом. Это позволяет оповещениям о сжигании продолжать вести себя так же независимо от какого -либо предыдущего отключения. Предупреждение оставшегося бюджета ошибок в временном окне, приближающемся к 0, может быть сделано с помощью отдельного мониторинга.
Все это имеет решающее значение для базового оповещения (подробно описано в пятой главе SRE [site reliability engineering] Рабочая книга). Тем не менее, ориентированная на разработчика платформа наблюдаемости должна затенять эти детали и позволить вам сосредоточиться на более прямых измерениях, таких как доступность или частота ошибок вашей системы с течением времени.
Почему скорость сжигания — неправильный ответ
SLOS, по их основе, является техническим инструментом для бизнес -проблемы. Вопросы, которые вы должны задать себе, когда создаете новый SLO, сосредоточены на том, как ваша система обслуживает ваш бизнес.
Это такие вещи, как:
Все это достаточно сложно, что многие из наших конкурентов не центрируют оповещение в своей конфигурации SLO, предпочитая предлагать предупреждение как вторичный шаг. Создание и управление SLO достаточно сложно для всех этих нехнологических причин. Добавление скоростей ожогов и математики на таком языке, как Promql, со своими собственными GotChas, просто делает его сложнее. И никому не нужна эта головная боль.
Более удобный подход фокусируется на том, чтобы задавать практические вопросы:
Это позволяет инженерам сосредоточиться на своих операционных и бизнес -потребностях, а не интерпретировал магические цифры. Оттуда мы рассчитываем скорости ожога от вашего имени точным способом. Вы можете сохранить по умолчанию книги SRE, или вы можете настроить их по мере необходимости. Тем не менее, мы рекомендуем вам не зацикливаться на скорости сжигания. Это там; Вы можете увидеть это. Но при мониторинге ваших SLOS лучше сосредоточиться на частоте ошибок и количестве. Они более Grokkable, и ваши менее знакомые товарищи по команде SLO будут благодарить вас!
Хроносфера — это платформа наблюдения, созданная для контроля в современном, контейнерном мире. Признанная в качестве лидера крупными аналитическими фирмами, хроносфера дает клиентам сосредоточиться на данных и идеях, которые имеют значение для снижения сложности данных, оптимизировать затраты и быстрее решать проблемы. Узнайте больше новейших из хроносферных трендовых историй Youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Маркус Хилл, член технического персонала в Chronosphere, предоставил такие функции, как производная телеметрия, объектив и SLO. Его опыт в IBM и Microsoft привил ему благодарность за крупномасштабные операции как в бизнесе, так и в технологиях. Маркус тоже … Подробнее от Маркуса Хилла