Как автономные агенты меняют управление инфраструктурой

DuploCloud спонсировал этот пост.

Сбои в инфраструктуре никогда не были такими дорогими. По оценкам недавних исследований, средняя стоимость простоя составляет 12 900 долларов в минуту. Для крупных предприятий эта цифра достигает почти 24 000 долларов в минуту. При таком уровне давления команды, занимающиеся инфраструктурой и платформами, сталкиваются с постоянным компромиссом.

Вы можете либо решать неотложные проблемы, либо продвигать инновации.

Сейчас появляется новая модель под названием AI DevOps-инженеры.

Это автономные агенты, которые анализируют инфраструктуру и координируют свои действия с оперативными инструментами. Они также предлагают действия практически в реальном времени. В отличие от предыдущих поколений помощников по автоматизации или программированию, эти системы работают внутри корпоративных облачных сред, интегрируются с инструментами производственного уровня и работают в рамках существующих структур управления.

Архитектура автономных инфраструктурных агентов

Эти системы отличаются от помощников искусственного интеллекта, ориентированных на разработчиков. Вместо генерации кода в IDE инженеры AI DevOps напрямую интегрируются с:

  • Кластеры Кубернетес
  • CI/CD-системы
  • Платформы мониторинга и наблюдения
  • API облачных провайдеров
  • Инструменты расчета стоимости и выставления счетов
  • Билетные системы

Основным требованием во всех реализациях является владение данными. Многие организации требуют, чтобы данные, связанные с инфраструктурой, оставались в их облачных учетных записях. К ним относятся предприятия в сфере здравоохранения, государственных и финансовых услуг.

Поэтому большинство решений полагаются на собственные облачные сервисы моделей большого языка (LLM), такие как Amazon Bedrock, а не на маршрутизацию данных извне.

Общие компоненты в современных архитектурах агентов включают:

  • Местная интеграция LLM

Модели запускаются внутри облачной учетной записи организации с использованием облачных сервисов искусственного интеллекта. Это поддерживает требования соответствия (HIPAA, SOC 2, PCI-DSS) за счет хранения журналов, показателей и анализа кода в доверенной инфраструктуре.

  • Уровень оркестровки агентов

Этот уровень координирует работу нескольких специализированных агентов. Он обеспечивает последовательность задач, управление контекстом, аутентификацию и выполнение инструментов в таких системах, как:

  • API Kubernetes/kubectl
  • Действия Дженкинса/GitHub
  • Графана/Cloudwatch/OpenTelemetry
  • Реестры контейнеров
  • Интерфейсы командной строки облачных провайдеров
  • Терраформирование и инфраструктура как инструменты кода

Уровень оркестровки абстрагирует сложности интеграции инструментов и управляет ошибками. Он также поддерживает рабочее состояние всех агентов.

  • Непосредственное управление

Все действия, затрагивающие инфраструктуру, требуют одобрения. Утверждения направляются через существующие платформы, такие как ServiceNow, Jira, Slack, или через специальные интерфейсы обработки заявок. Это поможет вам убедиться, что агенты не смогут обойти управление организацией.

Шесть новых специализированных должностей для инженеров AI DevOps

Хотя реализации различаются, организации сходятся на шести основных типах агентов:

1. Агент Kubernetes (разработка платформы)

Выполняет анализ жизненного цикла модуля, проверки развертывания, корреляцию журналов и обнаружение отклонений в среде.

Примеры задач: Диагностика ошибок 5xx путем сопоставления метрик, различий в развертывании и состояния модуля.

2. Агент наблюдения (SRE)

Интегрируется с метриками, журналами и системами событий для выявления основных причин в распределенных системах.

Примеры задач: Связывание скачка памяти в одном сервисе с задержкой в ​​нисходящем направлении в зависимых сервисах.

3. Агент CI/CD (инжиниринг релиза)

Анализирует сбои конвейера, интерпретирует журналы и предлагает исправления.

Примеры задач: автоматическое выявление конфликтов зависимостей или нестабильных тестовых шаблонов.

4. Агент архитектуры (документация и инфраструктурное отображение)

Строит диаграммы инфраструктуры в реальном времени с использованием облачных API и графовых баз данных.

Пример задачи: «Показать все сервисы, зависящие от этого RDS». [Amazon Relational Database Service] экземпляр», представленные в виде актуальных диаграмм.

5. Агент по оптимизации затрат (FinOps)

Поверхности определяют аномалии стоимости, неиспользуемые ресурсы или избыточную инфраструктуру с использованием данных выставления счетов и тегов ресурсов.

6. Агент по соблюдению требований и безопасности (обеспечение соблюдения политик)

Просматривает код инфраструктуры, проверяет наличие неправильных конфигураций и проверяет политики с использованием рассуждений LLM. Все это он делает, сохраняя при этом конфиденциальный код в облаке организации.

Почему оркестровка нескольких агентов — это боль

Создать единого агента несложно. Координировать работу нескольких агентов с использованием разных инструментов и контекстов гораздо сложнее. Современные уровни оркестрации решают следующие задачи:

  • Сложность интеграции инструментов — Каждый агент взаимодействует с многочисленными API, интерфейсами командной строки и сервисами. Каждый из них имеет свою собственную модель аутентификации, ограничения скорости и шаблоны ошибок.
  • Управление контекстом между агентами — Инциденты. Они могут вызвать проблемы с производительностью, неудачное развертывание и/или скачки затрат. Единый оркестратор решает, когда задействовать агент CI/CD, агент наблюдения или агент FinOps, и передает контекст между ними.
  • Выбор модели и координация LLM — Разные задачи требуют разных возможностей LLM. Системы часто переключаются между моделями, оптимизированными для рассуждений, облегченными моделями для обнаружения закономерностей и моделями, настроенными на конкретные инструкции.
  • Оперативное государственное управление — В отличие от сценариев без сохранения состояния, агенты сохраняют память об инцидентах, предыдущих действиях и шаблонах одобрения.

Что настоящие команды делают с этими агентами сегодня

Команды, тестирующие инженеров AI DevOps, сообщают о нескольких закономерностях поведения:

1. Взаимодействие на основе заявок как основной интерфейс

Инциденты обычно следуют следующим потокам:

  • Заявка создана («502 ошибки в рабочем API»)
  • Назначен соответствующий агент
  • Автоматизированная корреляция журналов и показателей
  • Предлагаемое исправление создано
  • Человеческое одобрение
  • Журнал выполнения и аудита
  • 2. Быстрое время анализа

    Большинство агентов возвращают первоначальные результаты в течение 5–30 секунд, что значительно сокращает время, которое инженеры тратят на переключение между панелями мониторинга и инструментами.

    3. Интеграция через рабочие процессы разработчиков

    Общие точки входа включают в себя:

    • Слабые команды
    • Подача билетов
    • Расширения кода VS
    • Веб-панели мониторинга с полным журналом аудита

    4. Иерархии утверждений, соответствующие организационным рискам

    Запросы только для чтения выполняются автономно; производственные изменения требуют явного одобрения.

    Вопросы безопасности и соответствия требованиям

    Любое использование автономных агентов на рабочем уровне должно поддерживать:

    • Наследование RBAC (управление доступом на основе ролей) из существующих систем IAM (управление идентификацией и доступом).
    • Разрешения «точно в срок» (JIT) для повышенного доступа.
    • Неизменяемые журналы аудита для каждого вывода и действия.
    • Гарантии границ данныхгарантируя отсутствие внешнего обучения модели.
    • Интеграция с SIEM (информация о безопасности и управление событиями) платформы например Splunk, Datadog или CloudWatch.

    Эти элементы управления гарантируют, что агенты ИИ действуют как доверенные расширения команд DevOps. И вам не о чем беспокоиться, они действуют как независимые актеры.

    Ограничения и проблемы отрасли

    В разных реализациях остается несколько ограничений:

    • Полная мультиоблачная поддержка пока еще не реализована.
    • Во многих системах отсутствует первоклассная интеграция распределенной трассировки.
    • Межрегиональная координация агентов пока не автоматизирована.
    • Большинство интерфейсов остаются только на английском языке.
    • Появляется поддержка самостоятельных моделей или моделей с открытым исходным кодом.

    Они отражают более широкую кривую зрелости ИИ в производственных операциях.

    Как организации внедряют эту технологию

    Успешные ранние последователи обычно делятся:

    • Сильные базовые практики DevOps и управления.
    • Стратегии постепенного развертывания, начиная с задач, доступных только для чтения.
    • Четкая иерархия утверждений для действий, требующих изменений.
    • Глубокая интеграция существующих цепочек инструментов.

    Следующие 12–18 месяцев, скорее всего, будут сосредоточены на улучшенных уровнях оркестрации, более широком обмене контекстом между агентами и более глубокой интеграции с рабочими процессами разработчиков.

    DuploCloud позволяет командам развертывать инженеров AI DevOps в собственных облачных средах со встроенными средствами управления, рабочими процессами оформления заявок и контроля соответствия. Узнайте больше или запросите демо-версию на сайте duplocloud.com.

    DuploCloud предлагает программную платформу DevSecOps для команд, у которых нет выделенного DevOps, и дополняет те, у которых есть. Платформа автоматизирует предоставление вашего приложения в облако (AWS, GCP, Azure), интегрируя облачные операции, SecOps, а также безопасность/соответствие требованиям с круглосуточным мониторингом и поддержкой. Узнайте больше Последние новости от DuploCloud ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Фахмид Кабир возглавляет разработку и вывод на рынок DuploCloud, платформы DevOps на базе искусственного интеллекта. Последние 18 лет он работал с глубокими технологиями искусственного интеллекта, облачной инфраструктурой и соблюдением требований. Узнайте больше от Фахмида Кабира

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *