Мониторные панели или запуска?

Спонсировал сотовые сопозиции этот пост.

У меня есть личная вендетта против «мониторинга». Не потому, что они не полезны — я на самом деле думаю, что они чрезвычайно полезны — скорее потому, что они, как правило, создаются с учетом неправильного пользователя, а затем используются совершенно другим пользователем и для другого случая использования.

Давайте посмотрим на происхождение мониторинга, как развивалось наше использование, и, что наиболее важно, как создать одноцелевые панели мониторинга-то, что я называю пусковыми наборами-которые создаются для их предполагаемой цели.

Настенные щиты не для отладки

Монитоны, как многие люди думают о них сегодня, больше похожи на «стены»-построены так, как будто их будут поставлены на 75-дюймовый телевизор, установленный на стене в офисе, думают, что люди могут выяснить проблему, глядя на них. Тем не менее, эти панели мониторинга в конечном итоге используются инженерами, которые используют их в качестве запуска для изучения своих систем.

По -настоящему полезные панели мониторинга, курируются вокруг системных проблем, созданных для обслуживания инженеров на своих машинах. Они определяются командами, которые создают и поддерживают свой код, чтобы объединить соответствующую информацию, чтобы в случае инцидента они могли использовать это в качестве первого, но, что важно, не единственное, где можно посмотреть. Они, куда уходят инженеры по вызову, когда упущены оповещения.

Лошади, телеметрия и решения в реальном времени

Происхождение термина «приборная панель» (или просто «приборная доска») не является современным; Это действительно действительно старый. Из того, что я могу сказать, термин возник из конных вагонов, где перед водителем была добавлена ​​деревянная или кожаная доска/фартук, чтобы остановить их ударом с мусора с дороги, когда лошади «разбиты» (скакало быстрее), отсюда и название «Dash Board». Со временем, когда мы перешли от конных вагонов в двигатели сгорания, панель перед водителем стала панелью.

Затем приборная панель использовалась для размещения считываний из различных инструментов, контролирующих жизненно важную информацию автомобиля — например, датчик топлива, давление в шинах или температуру двигателя. Эта информация важна, поскольку драйвер использует ее для принятия решений в режиме реального времени. Термин «приборная панель» стал названием для того места, где мы поместили наши инструментальные панели.

Это то, что хорошо переводится на то, как мы используем мониторные панели сегодня — или, по крайней мере, принципы, которые мы используем для их создания. Мы думаем о том, как мы можем использовать детали совета директоров для принятия решений в режиме реального времени, когда мы наблюдаем за ними, поэтому мы уделяем большое внимание авторефроудию.

Мои вопросы: это действительно то, как люди используют свои панели мониторинга? И если да, то это наиболее эффективное использование их времени?

Метрики, метрики везде!

Я думаю, что мы остановились на этих графиках стиля «настенного», потому что сетевые операционные центры (NOC) были вершиной мониторинга. NOCS удивительны — персонал — одни из самых прилежных и умных людей, которых я когда -либо встречал. Тем не менее, проблемы, которые они ищут, и отладка очень отличаются от проблем компании по разработке программного обеспечения.

Анализ инфраструктуры является отличным вариантом использования метрик (предварительно агрегированные данные временных рядов с минимальными измерениями), поскольку нам не нужно иметь возможность смотреть на отдельные данные пакета. Наблюдать за процессорами для постоянных шипов и сопоставить это с сетевым трафиком, это здорово. В то время это все, что у нас было — и потому что само программное обеспечение было довольно простым и некритическим, нам не пришлось слишком беспокоиться о внутренних деталях наших приложений.

Эта идея о том, что всем компаниям нужен NOC — и что NOC построен определенным образом — заставила инженеры поверить, что у них должно быть множество настенных плат, и что они должны включать графики, которые требуют показателей. Реальность, однако, заключается в том, что NOCS — это другой вид мониторинга — и они касаются мониторинга, а не отладки или наблюдаемой. Какие инженеры, которые пишут приложения, не то же самое, что и то, что нужно оператору в NOC.

Другая ключевая часть заключается в том, что настенные щиты были построены и курированы людьми, которые строили машины, сети и общую инфраструктуру, которую они контролировали. Чтобы быть ясным, люди, которые построили сети, построили их такими стандартизированными и едиными способами, чтобы построение мониторинга было примерно таким же от организации до организации или центра обработки данных до центра обработки данных.

Среди всего этого Графана стала стандартным инструментом визуализации для метрических данных, так как сегодня для многих компаний. Мы начали видеть распространение метрических данных с наших готовых устройств, даже для коммерческих программных продуктов, что означает, что эти устройства и продукты могут обеспечить стандартизированные подходы к их мониторингу.

Grafana добавила такие функции, как импорт предварительно построенных панели, функции для объединения данных из различных баз данных метрик в одном представлении и добавление различных визуализаций этих данных. Это было великолепное время для любителей дома, у которых были панель панели для своей домашней сети, потому что графики были крутыми, верно? Верно?! И наличие большого количества графиков на одном мониторе в вашем офисе было в значительной степени «в» для такими гиками, как я.

Вопрос в том, добавили ли эти панели мониторинга ценность моей повседневной жизни? Неа. Они, однако, заставили меня чувствовать себя круто, как будто я что -то делал правильно. Возможно, они помогли, если бы я получил медленную загрузку, так как я мог бы взглянуть на монитор и посмотреть, есть ли другой трафик. Они также многому научили меня о строительстве — и, что самое важное, поддержание — системы мониторинга. А именно, что я никогда не хочу делать это сам!

Отладка в распределенном мире

В то время как эта революция в мониторинге продолжалась, мы увидели рост распределенных систем. Позже, архитектуры и микросервисы, управляемые событиями. Затем даже позже наносервисы и без сервера. Эти различные типы сложных систем изменили способ, которым мы думаем о надежности, времени безотказной работы и, в конечном счете, о том, как мы рассуждали о поведении системы.

Мы обнаружили, что наши системы были по сути большими машинами Rube Goldberg, и что нам нужно было намного больше информации, чем процентильные графики, чтобы понять, почему что -то пошло не так. От сложности самого кода до архитектурного дизайна крупных распределенных систем, в которых они живут, у нас просто недостаточно информации с графиков.

Мы добрались до стадии, где мы больше не могли диагностировать причину проблем, просто посмотрев на приборную панель. Это не уменьшило полезность приборной панели для уведомления и обзора ситуации — наоборот, это означает, что панели панели являются хорошей отправной точкой для расследования.

Отладка нуждается в направлении

Мы обнаружили, что эти сложные системы терпят неудачу интересными способами. Они не всегда очевидны, но, как правило, есть какой -то график, где можно указать, где искать основную неудачу, но он не скажет вам, почему.

Введите снова приборные панели! Но на этот раз их внимание не сосредоточено на телевизоре в офисе. Теперь мы используем эти панели мониторинга в качестве «универсального магазина» мест для щелчка, с контекстной информацией, которая поможет нам раскрыть, почему что-то терпит неудачу. Мы используем их для обозначения, направляя направление отладки.

Они являются местом для инженеров, которые поддерживают приложения, чтобы первым щелчком из runbook или оповещения в их путешествии по отладке. Вот почему я полагаю, что это отлаживают запуска. Они не пункт назначения; Они первая остановка в путешествии.

Важными характеристиками запускной панели над настенным щедро состоит в том, что мы используем графическое представление данных, чтобы показать кураторские, коррелированные идеи о проблеме или производительности службы. Мы создаем эти представления, чтобы показать людям, где искать проблемы, но не уведомить их или немедленно исправить проблемы. Мы используем эти данные, чтобы помочь им найти следующий вопрос, чтобы задать.

Лучший способ сделать это — сделать каждое представление данных ссылкой (или указателем), чтобы запустить больше вопросов или дальнейшего расследования. Я приравнивал этот подход к «Усовершенствовать! Усовершенствование!» Вы видели в телевизионных шоу, таких как «CSI», где пиксельное изображение дает вам представление о том, куда вы хотите посмотреть, но только путем увеличения и улучшения данных в определенной области вы можете увидеть его истинную природу.

Задайте больше вопросов, получите больше ответов

Нам нужно перестать думать о панелях мониторинга как статического представления данных и начать думать о них как о инструменте, чтобы помочь в отладке. Мы должны понимать, что из каждого графического представления должен быть следующий шаг, еще один вопрос, который нужно задать или ответ на получение.

Сделайте каждую панель на доске начала расследования. Запустите зрителя в путь вопросов, который даст им информацию, необходимую для понимания того, что происходит.

Honeycomb — это платформа наблюдения, которая позволяет инженерным командам находить и решать проблемы, которые они не могли раньше. Insight Partners является инвестором в Honeycomb и TNS. Узнайте больше последних из Honeycomb Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Martin Thwaites — разработчик, оратор и евангелист наблюдения, который в настоящее время работает в отношении отношений разработчиков для honeycomb.io. Узнайте больше от Мартина Туайта

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *