Объяснимый ИИ нуждается в объяснимой инфраструктуре

Во время разработки системы ИИ, вы когда -нибудь проводили дни и поздние ночи, чтобы в конечном итоге понять, что реальная проблема была встроена глубоко в ваш слой инфраструктуры? Недавно я столкнулся именно с этой задачей, работая над системой ИИ. К моему удивлению, я сделал это

Внезапные капли точности или несоответствия модели не были вызваны неисправными моделями. Тем не менее, они были укоренены в тонких проблемах инфраструктуры, таких как задержки или другие неправильные сборы.

Из этого анализа основных причин я узнал, что достижение истинного объяснимого ИИ (XAI) требует прозрачности не только в модели, но и в слое инфраструктуры, который формирует основу для моделей ИИ. Этот подход, который я терпите «Объяснимую инфраструктуру, мостыни критический разрыв между прозрачностью и оперативной наблюдаемостью.

Реальная проблема: необъяснимые производительность модели.

Я строил систему рекомендаций с высоким трафиком. Внезапно я наблюдал внезапное и необъяснимое падение в точности прогноза. После тщательного исследования самой модели я обнаружил, что основная причина была прослежена до прерывистых проблем задержки в распределенной системе хранения, в данном случае AWS Simple Service (S3).

Согласно отчету Гартнера в 2023 году о надежности облачной инфраструктуры, 47% Незапланированного времени простоя в системах AI/ML связано с неправильной деятельностью инфраструктуры, включая задержку сети и узкие места для хранения.

Почему прозрачность инфраструктуры имеет значение

Производительность модели ИИ зависит от надежности базовой инфраструктуры. Фундаментальные элементы инфраструктуры, такие как задержка базы данных, производительность сети и распределение памяти, могут косвенно влиять на решения об искусственном интеллекте, внедряя мельчайшие, но эффективные смещения или неточности.

Задержки шипы в распределенных системах составляют ~ 35% деградации производительности модели ИИ, часто маскируемого как модель дрифтакак указано в справочнике Google Cloud SRE, 2022.

Чтобы решить эту проблему, я использовал методы наблюдения, обычно используемые в крупномасштабной распределенной системе, в частности Распределенная трассировка. Это позволило нам преодолеть разрыв между показателями инфраструктуры и прогнозами модели искусственного интеллекта.

Архитектура для объяснимой инфраструктуры ИИ

Чтобы визуализировать, как взаимодействуют компоненты, рассмотрите следующую упрощенную архитектуру:

Рисунок 1. Архитектурная схема для установки инфраструктуры

Установка OpenElemetry для конференции по сборам

Вот как я интегрировал Opentelemetry в наш конференция по сборам искусственного интеллекта для достижения прозрачности от инфраструктуры для моделирования решения.

Моя настройка OpenElemetry: Мы инициализируем OpenElemetry, чтобы проследить и захватывать подробные промежутки по всему конвейеру, обеспечивая гранулированную видимость в задержку и узкие места производительности.

# Opentelemetry setup от openelemetry import trace from opentelemetry.exporter.jaeger.trift import jaegerexporter из opentelemetry.sdk.trace import tracerprovider from opentelemetry.sdk.trace.export import -batchspanpessessor trace.set_tracer_provider (tracerprovider ()) trace.get_tracer (__ name__) jaeger_exporter = jaegerexporter (agent_host_name = «localhost», agent_port = 6831) span_processor = batchspanprocessor (jaeger_exporter) trace.get_tracer_provider (). add_span_processor (span_processorse) ai_inference (input_data): с tracer.start_as_current_span («ai_inference_pipeline») как span: infra_latence = ager_storage_latency () span.set_attribut Прогнозирование) возвращает прогнозирование # Измерение задержки хранилища для вызовов AWS S3 def Searge_storage_latency (): start_time = time.time () referm_user_query () latency_ms = (time.time () — start_time) * 1000 return latency_ms_ms 1234567891011121314151617181920212223242526272829303132333435363738 # opentelemetry setupffrom opentelemetry import tracefrom opentelemetry.exporter.jaeger.trift jaegeretry opentelemetry.sdk.trace import tracerproviderfrom opentelemetry.sdk.trace.export Импорт Batchspanprocessor trace.set_tracer_provider (tracerprovider ()) tracer = trace.get_tracer (__ name__) jaeger_exporter = jaegerexporter (agent_htracer (__ name__) jaeger_exporter = jaegerexporter (Agent_htracer (__ name__). agent_port = 6831) span_processor = batchspanprocessor (jaeger_exporter) trace.get_tracer_provider (). add_span_processor (span_processor) # Реализация Distributed TracingDef AI_INERENCE (input_data): с Tracer.Start_AS_Current_Span («AI_INFERENCE ‘as ai_infere infra_latency = searuge_storage_latency () span.set_attribute («storum_latency_ms», infra_latency) Predication = Run_model (input_data) span.set_attribut recome_user_query () latency_ms = (time.time () — start_time) * 1000 return latency_ms

Код 1. Настройка OpenElemetry для конференции по сборам AI

Визуализация метрик с мониторингами Grafana

Мы создали панели мониторинга Grafana для корреляции инфраструктурных событий с производительностью модели искусственного интеллекта. Вот упрощенная конфигурация:

Панель панели приборной панели Grafana для визуализации задержки: Эта панель визуально отслеживает задержку хранилища с течением времени, обеспечивая немедленную идентификацию потенциальных узких мест инфраструктуры.

{«Название»: «Задержка хранения», «Тип»: «График», «DataSource»: «Jaeger», «Targets»: [
    {
      «expr»: «rate(storage_latency_ms[5m]) «,» интервал «:» 1m «}],» yaxes «: [
    {
      «format»: «ms»,
      «label»: «Latency (ms)»
    },
    {}
  ]
} 123456789101112131415161718 {«Название»: «Задержка хранения», «Тип»: «График», «DataSource»: «Jaeger», «Targets»: [    {      «expr»: «rate(storage_latency_ms[5m]) «,» интервал «:» 1m «}],» yaxes «: [    {      «format»: «ms»,      «label»: «Latency (ms)»    },    {}  ]}

Код 2. Настройка панели мониторинга Grafana для измерения задержки

Настройка оповещений Grafana для шипов задержки

Мы активно отслеживаем инфраструктуру с использованием оповещений. Чтобы обнаружить и предупреждать о проблемах задержки, я установил простое правило оповещения Grafana:

{«alert»: {«условия»: [
      {
        «evaluator»: {«params»: [300]»type»: «gt»}, «запрос»: {«params»: [«A», «5m», «now»]}, «Reducer»: {«Params»: []»type»: «avg»}, «type»: «Query»}]»executionEerrorState»: «оповещение», «частота»: «1m», «Handler»: 1, «имя»: «Задержка с высокой задержкой», «NodataState»: «no_Data», «Уведомления»: » []
}, «title»: «Alert задержки хранения», «type»: «Graph»} 1234567891011121314151617181920 {«warer»: {«Условия»: [      {        «evaluator»: {«params»: [300]»type»: «gt»}, «запрос»: {«params»: [«A», «5m», «now»]}, «Reducer»: {«Params»: []»type»: «avg»}, «type»: «Query»}]»executionEerrorState»: «оповещение», «частота»: «1m», «Handler»: 1, «имя»: «Задержка с высокой задержкой», «NodataState»: «no_Data», «Уведомления»: » [] }, «title»: «Alert задержки хранения», «type»: «Graph»}

Код 3. Настройка оповещений о задержке шипов

Действующие идеи

  • Объединенная наблюдение: Важно интегрировать метрики ваших моделей искусственного интеллекта с показателями инфраструктуры. Цель северной звезды должна заключаться в отслеживании сквозного здоровья системы.
  • Упреждающее оповещение: Установка оповещений на аномалиях уровня инфраструктуры позволяет упреждать выявление проблем. Это обеспечивает более быстрое время выполнения заказа для исправлений исправлений и лучшего пользовательского опыта.
  • Регулярные обзоры: Обычно проверяйте здоровье инфраструктуры наряду с производительностью модели во время регулярных оперативных обзоров.

Эти объяснимые практики инфраструктуры, особенно с наблюдением, могут помочь организации значительно сократить время устранения неполадок. Это серьезное изменение в мышлении, в котором становится отладка упреждающий скорее, чем реактивный. Следовательно, значительно повышение надежности системы и укрепление доверия к решениям искусственного интеллекта.

Последние мысли

По моему скромному мнению, пересечение наблюдаемой инфраструктуры и объяснимого ИИ созрело для инноваций. Будущие системы ИИ будут сильно полагаться на прозрачные инструменты наблюдения инфраструктуры, методологии и процессы. Это обеспечивает большую ответственность за заинтересованные стороны и укрепляет доверие конечного пользователя при использовании систем ИИ. Обзор технологий MIT, 2024 год, в их исследовании говорится —

Следующая граница для надежного ИИ — это не просто объяснимые модели — это объяснимая инфраструктура.

Объяснимая инфраструктура ИИ — это не просто техническое решение; Это основополагающее и важно для создания надежного, надежного ИИ. Я хотел бы услышать ваши мысли — как вы обеспечиваете прозрачность в ваших системах ИИ?

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Pronnoy Goswami — это облачная, ИИ -инфраструктура и специалиста по распределенным системам, страдающего для создания масштабируемых и устойчивых архитектур. Он активно участвует в техническом сообществе в качестве автора, консультанта по стартапу и технического рецензента для ведущих издателей, таких как Springer, Apress и … Подробнее от Prononoy Goswami

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *