Как ИИ может помочь ему команды найти сигналы в шуме настороже

ЛОНДОН. «Мальновые огни — это проклятие и благословение для многих из нас», — сказал зрителям, в Devopsdays London, заявил зрителям, в Landi Walls, адвокат разработчика в Pagerduty.

И, добавила она: «Неважно, представляют ли они хорошие вещи или представляют плохие вещи».

Если, как она это определила, предупреждение — это то, что «в реальном времени и требует вашего внимания», мы живем во времена утомления. Разработчики должны оттолкнуть все уведомления Push, звуковые сигналы, навороты, прерывающие их потоки.

Определенное количество пожаротушения связано с работой. Но когда очень важно разбудить разработчиков посреди ночи? Это решение не об истинных чрезвычайных ситуациях. Команды должны обращаться к всем другим звонкам, страницам и пингям.

В Devopsdays London в этом месяце Walls предложил структуру, чтобы убедиться, что эти «люди, ответственные за исправление и сохранение качества обслуживания клиентов», могут быть более продуктивными и менее напряженными. Это достигается с правильным сочетанием целей уровня обслуживания (SLO), автоматизации и машинного обучения (ML).

В то время, когда меньше людей участвуют в производстве большего количества кода, чем когда -либо, мы обязаны нашими инженерами -безопасности, Sysadmins, инженерами по надежности сайтов (SRES) и разработчикам на вызове, чтобы получить наиболее действенные оповещения в режиме реального времени. Вот как.

Понимание огромного риска усталости предупреждения

Этот поток неважных оповещений подвергает риску как вашу безопасность, так и ваши сотрудники.

Для средней организации где -то между 95% и 98% оповещений является некритическим или ложным срабатыванием, согласно отчету «BECHARTING SEGICMARK OX 2025. В том же отчете также показано, что 84% специалистов по безопасности сообщают о том, что он сгорает от перегрузки на оповещения, причем каждый третий активно стремится оставить свою работу в ответ на объем оповещения.

Это не чрезмерная реакция. Усталость предупреждения является результатом когнитивной нагрузки и усталости решений. Моше Бар, нейробиолог, ранее в Гарвардской медицинской школе и в настоящее время в Университете Бар-Илан, сказал на вебинаре с быком, что это принципиально меняет закономерности мышления: «Мы становимся менее креативными, менее исследовательскими. Мы используем знакомые шаблоны и прибегаем к более простым решениям».

Последствия усталости от предупреждения, которые наложены стены:

  • Отсроченное время ответа
  • Пропущенные оповещения
  • Игнорирование ложных срабатываний
  • Увеличение стресса и выгорания
  • Более высокий персонал
  • Снижение производительности
  • Обзоры инцидентов с более низким качеством и документация

Без времени для посмертных и размышлений уроки теряются, а инциденты повторяются. Стены ссылаются на неназванных клиентов, которые работают в операциях, которые могут иметь более 100 000 предупреждений за короткое время: «В какой -то момент вы просто должны объявить о банкротстве предупреждения. Это больше не имеет значения».

Оповещения важны, но поэтому не проводятся нерадрующими оповещениями, которые отвлекают от ваших реальных приоритетов.

Стратегии по снижению и расстановке приоритетов оповещений

В то время, когда у нас будет больше кода — и, надеюсь, больше тестов, мониторинга и наблюдения за ним — команды должны быть более организованными и избирательными в отношении того, что их разбудит в 2 часа ночи

Это может не звучать весело, но если ваша команда сталкивается с беспорядочным большинством незарегистрированных, нерадушных оповещений, пришло время расставить приоритеты в очистке. Это может быть интенсивным, предупреждали, что стены предупредили. Командам часто нужно намеренно заблокировать спринт, чтобы сконцентрироваться на очистке существующих оповещений.

Начните с самых шумных оповещений, а затем она продолжила, пересмотрите каждый сигнал оповещения, спрашивая:

  • Это действенный? Могу я что -нибудь сделать прямо сейчас? Предложите данные, чтобы помочь менеджеру продуктов исправить их.
  • Это срочно? «Признавая себя, что не все, что мы запускаем,-это SEV-1»,-сказал Уоллс, когда это может быть просто билет.
  • Это полезно? «Мы хотим добраться до того, что все, что приходит, и предупреждение человеческого пользователя, важно для опыта работы с клиентами», — сказала она. По ее словам, эти клиенты должны включать ваших внутренних пользователей, независимо от того, управляете ли вы инструментом ресурсов человека или внутренней платформой разработчиков.

По словам Уоллс, обратитесь к легкому поверхности оповещений, которые «оказывают реальное материальное влияние на ваш бизнес». «Даже если вы просто поддерживаете внутренние ИТ -процессы, особенно если оповещения поступают из систем заработной платы, то, что вы хотите работать, так как всем нравится получать плату, верно?»

Методы уменьшения усталости от предупреждения:

  • Не предупреждайте об успехе. Почти всегда, сказал Уоллс, вам не нужно знать, работает ли что -то в режиме реального времени — просто позвольте ему работать в тишине.
  • Не отправляйте оповещения, которые не являются действующими. «Эта штука сломана без объяснения» не поможет ей решить.
  • Установить соответствующую срочность и тяжесть, откладывая предупреждения о низких соревнованиях. «Понимает немного смирения», — предупредил стены, так как всегда будут функции, над которыми инженеры усердно работали, но они непопулярны.
  • Удалить или приостановить нарушенные оповещения. Может быть некоторое отставание между инструментами мониторинга и тем, что идет на производство. Выключите оповещения о вещах, которые не обновлены или хронически сломаны.

ИИ может помочь определить, что деприоритизировать, потому что он очень хорош в определении шаблонов и категорий различных типов оповещений.

Как заземлить политику оповещения в SLOS

Далее, утверждает Уоллс, политика предупреждения должна быть связана с SLO, которые всегда являются конкретными и измеримыми целями производительности, но, в отличие от соглашений на уровне обслуживания (SLA), остаются внутренним направлением.

Свяжите свои SLO с вашими производственными показателями, заземляя их во всем, что имеет значение для ваших внешних и внутренних пользователей. После того, как вы ставите свои цели, сообщите их менеджерам по продуктам таким образом, чтобы они помогали им расставить приоритеты, исправление ошибок или обновление, которое много отмечает.

Стены привлекли пример: «Пользователям действительно нравится этот компонент. Как мы можем убедиться, что этот компонент всегда зависит от того, что они хотят от этого?»

Слайс, утверждала она, дает вам возможность спросить, за каждую частоту ошибки: стоит ли уведомлять человека в режиме реального времени?

«Мы хотим иметь какую -то место для маневра», — сказал Уоллс. «Мы хотим иметь некоторую терпимость к тому, сколько оповещений в определенный период времени представляет собой реальную проблему, по сравнению с Интернетом сегодня Интернет, и между мониторингом и самой услугой есть что -то странное.

«Мы хотим добраться до места, где мы уверены, что когда эта вещь предупреждает человека, существует реальная проблема, которую необходимо исправить, а SLO помогут нам сделать это».

Обязательно рассчитайте бюджет ошибки для ваших SLO — часто 95% случаев в рамках толерантности, предлагают стены. Это отстраняется от вашей команды по вызову в течение 5% случаев, когда все вспыхивает, но это не на самом деле чрезвычайная ситуация-по крайней мере, пока. По ее словам, вы также можете изменить объем оповещений, добавив пороговые значения на основе вашего бюджета ошибок.

Эта практика, по ее словам, также дает вам место для маневра для непредсказуемости в рамках того, как ваши пользователи будут использовать функцию. Этот 5% дает вам время, чтобы затем отслеживать и наблюдать за тем, как они будут его использовать.

Затем общая цель SLO — уменьшить количество предупреждений о том, что она назвала «удивительным», который не достигает порога терпимости, поэтому вы только предупреждаете вещи, которые действительно важны сейчас.

Определение того, когда и как автоматизировать ответы на предупреждение

Где -то между 20% и 23% от Pagerduty предупреждает о том, что пинг -люди были разрешены в течение пяти минут, — сказали в стенах. Это означает, что почти четверть оповещений не требовала глубокой сортировки или необычной обработки. Те, кто по вызову, уже поняли, о чем был предупреждение, и даже не учатся из его исправления.

«Резолюция человека менее чем за пять минут означает, что это пустая трата времени», — сказал Уоллс. Таким образом, такие предупреждения являются спелыми целями для автоматизации, сказала она; Они, как правило, предупреждают о вещах в архитектуре, которые у вас никогда не получают время, чтобы исправить или модернизировать.

«Мы хотим добраться до места, где мы просим машины сделать это для нас», — сказала она. «Мы хотим [the solution] быть вызванным предупреждением, чтобы люди не должны знать ».

Вы можете назначить метрику агенту искусственного интеллекта на основе параметров: например, что все в порядке, если он должен перезапустить три или четыре раза в неделю. Но вы не хотите, чтобы это делало это 300 раз.

По словам Уоллса, вы можете написать этот автомат, с человеком в курсе общих вопросов, связанных с новыми оповещениями в нашей сложной распределенной среде. Например, это может быть, что автоматизация не сработала, поэтому пингуйте инженера -человека, чтобы выяснить, почему она не сработала. Затем это становится действенным предупреждением для инженера, которое непрерывно помешает агенту ИИ постоянно повторять ошибку.

Организации, несомненно, будут иметь большой объем предупреждений о низких отростках, о которых может позаботиться об автоматизации. Если у вас уже есть сценарий runthis.sh для этого, сказала она, вы хотите полностью избавиться от человеческого ответа.

По словам Уоллса, отличным вариантом использования ИИ является использование автоматизации автоматизации для предварительной информации и телеметрии, чтобы ускорить время отклика. Это может быть предварительно пропаловать канал Slack со ссылками на мониторные панели и данные, которые появляются в журналах. Будьте осторожны, что они не просто создают больше оповещений, она предупреждала, вместо того, чтобы помочь им быстрее исправить их.

Практические варианты использования искусственного интеллекта для SRES сегодня

Приблизительно две трети CISO планируют добавить функции, работающие на AI, в свои стеки безопасности в течение следующего года, согласно отчету DarkTrace 2025 года. Где сейчас помогает ИИ?

«Пространство искусственного интеллекта в SRE переоценки на реагирование на инциденты, что скучно»,-сказал новый стек Дейв О’Коннор, вице-президент по технике астронома. «Не драться с пожарами быстрее». Вместо этого, по его словам, работайте над сигналами, чтобы предотвратить будущие инциденты.

Вы можете спросить ИИ, он сказал: «Проанализировать от шести до 12 месяцев наших инцидентов и рассказать мне, что я делаю неправильно. Используйте эти удивительно мощные аналитические инструменты. Они намного лучше людей» при раскрытии моделей.

У SRES и других инженеров безопасности есть много «застрявших знаний» — например, как работает Prometheus — который О’Коннор также рекомендует кормить базу знаний с наложением чат -боты.

Эти и другие варианты использования AI SRE требуют преднамеренного обмена данными и очистки.

«Мне нужно знать, связаны ли они с конкретной проблемой или группой проблем», — сказал Уоллс, что делает интеллектуальную оповещения, группирующую великий ранний случай использования AI SRE.

Проблема, предупредила она, заключается в том, что «оповещения обычно ужасны, так что мусор в/мусор».

Чтобы добавить к этому, оповещения обычно принадлежат разным командам на разных платформах, возможно, даже в разных облаках. Команды SRE выиграют от очистки предупреждающих сообщений и даже вручную группировать их, прежде чем кормить их в большие языковые модели (LLMS). Это включает в себя стандартизацию вокруг языков и называние услуг и развернутых активов.

«Когда у вас есть эти инструменты, они невероятно мощные», — сказал Уоллс. «Но вы должны убедиться, что ваши данные выровнены до такой степени, что это действительно будет работать для вас».

Подобно предложению О’Коннора о свалке и передаче знаний, стены также отметили, как «люди, которые работают над системой, вероятно, точно знают, как все настроено и с чем они разговаривают, и у них есть ментальная карта системы системы, [showing] Что делает модель ИИ и не знает ».

Вам нужно работать с теми людьми, которые работают над теми системами, которые могут помочь перевести эту ментальную карту для ИИ.

Контрольный список для уменьшения вашей общей нагрузки на предупреждение

Это приносит пользу всем техническим организациям, чтобы они были насторожены о вещах, которые являются значимыми, важными и нуждаются в человеческой реакции прямо сейчас. Вы также хотите, чтобы каждое предупреждение, которое достигает человека, был действенным, с небольшим количеством повторяющихся предупреждений.

Имея это в виду, Уоллс создал контрольный список SRE:

  • Очистите оповещения.
  • Сосредоточьтесь на своих пользователях с SLOS и распределите оповещения о этих метриках.
  • Вытащите мусор из рабочего процесса человека с автоматизацией.
  • Обурите машины, чтобы быть эффективными товарищами по команде.

Все это звучит дорого?

Как выразились стены, «отсутствующие предупреждения, наличие более длительных инцидентов, наличие большего времени простоя или отключений, сокращение этого общего качества обслуживания клиентов также является дорогостоящим».

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Дженнифер Риггинс — технический рассказчик и журналист, мероприятие и панель. Она преодолевает разрыв между бизнесом, культурой и технологиями, и ее работа основана на опыте разработчика. Она была работающей писателем с 2003 года и базируется … Подробнее от Дженнифер Риггинс

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *