Инженеры по надежности — это тихая сила, которая поддерживает работоспособность современного программного обеспечения. После десятилетий совершенствования практики детерминированных систем многие команды гонятся за еще одной «девяткой», время безотказной работы которой превышает 99%. Но эра искусственного интеллекта, особенно функций, поддерживаемых LLM, меняет правила игры. Выходные данные недетерминированы, конвейеры данных перемещаются под ногами, а ключевые компоненты ведут себя как черные ящики. В результате многие инструменты и ритуалы, отработанные SRE на протяжении десятилетий, больше не соответствуют производственному ИИ.
На SREcon EMEA 2025 я вместе с соучредителем Cauchy Марией Вечтомовой организовал дискуссионный трек MLOps. Мы собрали ведущие голоса для беседы с аудиторией, обсуждая, как специалисты по надежности могут ориентироваться в этой сфере ИИ. Вот ключевые выводы.
SRE сталкиваются с новой парадигмой
На SREcon Americas 2025 корпоративный вице-президент Microsoft Брендан Бернс заявил, что Azure проверяет новые модели двумя способами: стратегия LLM как судьи, при которой LLM оценивают их результаты; Во-вторых, что еще более удивительно, сотрудники Microsoft оставляют отзывы «большой палец вверх» и «большой палец вниз». Аудитория рассмеялась, а затем продолжила обсуждение во время конференции. Для инженеров по надежности, привыкших к измеримым SLO и объективным показателям, это звучало неудобно. И это, пожалуй, был поворотный момент, который сигнализировал отрасли о том, что перемены уже на подходе. Как говорит генеральный директор Stanza Найл Мерфи: «SRE придется еще какое-то время бороться с этим стохастиком».
Для большинства традиционного программного обеспечения запуск одного и того же кода в одной и той же инфраструктуре дает тот же результат. При использовании рабочих нагрузок машинного обучения это не гарантировано. Как объяснила Вечтомова, «статистические свойства данных могут измениться, и ваша модель перестанет работать. Именно это произошло во время COVID: системы прогнозирования и рекомендации сломались, потому что мы никогда раньше не видели такого рода данных».
И хотя ИИ уже некоторое время существует в разных формах, мы вступаем в новую эру. Как заметил директор по искусственному интеллекту Zalando Алехандро Сауседо, «GenAI/LLM меняют парадигму от обучения к умозаключению». Раньше обучение было центром тяжести; модели были недостаточно хороши для большинства приложений, и инженеры ML сосредоточились на исправлении этой проблемы. Теперь, когда программы LLM приносят почти волшебные результаты, трудные проблемы перешли к отбыванию времени: умозаключениям. SRE выходят на сцену, и их просят быстро перейти от нуля к промышленному уровню, часто без зрелых инструментов или устоявшихся сценариев.
Специалисты по обеспечению надежности привыкли к детерминированным системам, где, например, коды состояния (2xx/5xx) могут служить приблизительными показателями состояния здоровья. Поскольку результаты LLM недетерминированы, часто не существует простого способа узнать, полезен ли ответ, сгенерированный ИИ.
Мониторинг должен развиваться
Если ваше приложение LLM генерирует сводки новостей, как вы узнаете, что сегодняшние результаты такие же хорошие, как и вчерашние? Нет единого, очевидного сигнала. Так что же нужно отслеживать, чтобы уловить дрейф качества? Старший инженер-технолог Meta Джей Лиз выступает за привязку к бизнес-метрикам. Для рекламы это может быть рейтинг кликов (CTR): если CTR повышается, ваш ИИ, вероятно, улучшает впечатление; если он падает, что-то регрессировало.
LLM продвигают метрическую философию SRE вверх по стеку. Единственным надежным критерием «правильности» является бизнес-результат: разрешил ли помощник дело, совершил ли пользователь конверсию, сохранился ли доход за сеанс? Это означает, что владельцы сервисов должны определить SLI и SLO на уровне результатов. Но результаты могут отставать, и лучше всего сочетать их с классическими индикаторами. Вместе этот стек дает как правду с влиянием на бизнес, так и скорость с ранними сигналами отклонения.
Это рисует четкую картину того, что ИИ делает наблюдаемость необязательной. Но, как говорит технический директор Honeycomb Charity Majors, «большинство компаний даже не имеют высококачественной возможности наблюдения за своими рабочими нагрузками, не связанными с искусственным интеллектом». Так что либо нам предстоит долгий путь к надлежащей наблюдаемости ИИ, либо ИИ станет катализатором, продвигающим наблюдаемость вперед. А для компаний, пытающихся сделать это правильно, недавнее исследование показало, что мониторинг и наблюдаемость являются самыми большими проблемами при создании моделей машинного обучения: только 50% компаний имеют какой-либо вид мониторинга моделей.
Никто этого не понял
Даже если мы будем агрессивно использовать инструменты, сегодня существуют пределы того, что практично. Глава отдела надежности Anthropic Тодд Андервуд выразил это прямо: «Теоретически можно отслеживать и верифицировать все: данные, подсказки, встраивания, модели, индексы поиска и политики, объясняющие отклонения. На практике такой уровень сквозного происхождения является тяжелым и нереалистичным для большинства компаний».
Этот разрыв между идеалом и практикой существует не просто так: земля продолжает быстро двигаться. Андервуд и Мерфи, соавторы книги «Надежное машинное обучение: применение принципов SRE к машинному обучению в производстве», добавили, что при написании книги проблема заключалась в том, чтобы опережать темпы перемен; они стремились предложить практики, которые не устареют к моменту публикации.
После девяноста минут обсуждения с группой экспертов и аудиторией выделилась одна тема: никто не понял ее до конца. Многие команды инженеров считают, что они отстают в области искусственного интеллекта, но правда в том, что мы все летаем на самолете, который все еще строится. Некоторые организации впереди, но лишь немногие имеют зрелые процессы, инструменты и руководства для эксплуатации этих недетерминированных систем в больших масштабах.
На данный момент у MLOps больше открытых проблем, чем решенных ответов, ничего нового для технологий, но в таком масштабе, которого мы давно не видели. Как отметил Андрей Карпати, создание «правильных» агентских приложений может занять десятилетие. Многие демоверсии LLM попали в первую девятку — они работают примерно в 90% случаев — но предстоит преодолеть еще много девяток, прежде чем мы достигнем надежности производственного уровня.
ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Сильвен Калаче — технологический предприниматель и инженер-программист. В качестве руководителя лаборатории искусственного интеллекта в Rootly он курирует отношения с разработчиками и инициативы в области искусственного интеллекта. Ранее он основал школу разработки программного обеспечения, выпускников которой нанимали такие организации, как Apple, Google и… Читать далее от Сильвена Калаче