Объяснимый ИИ нуждается в объяснимой инфраструктуре

Во время разработки системы ИИ, вы когда -нибудь проводили дни и поздние ночи, чтобы в конечном итоге понять, что реальная проблема была встроена глубоко в ваш слой инфраструктуры? Недавно я столкнулся именно с этой задачей, работая над системой ИИ. К моему удивлению, я сделал это

Внезапные капли точности или несоответствия модели не были вызваны неисправными моделями. Тем не менее, они были укоренены в тонких проблемах инфраструктуры, таких как задержки или другие неправильные сборы.

Из этого анализа основных причин я узнал, что достижение истинного объяснимого ИИ (XAI) требует прозрачности не только в модели, но и в слое инфраструктуры, который формирует основу для моделей ИИ. Этот подход, который я терпите «Объяснимую инфраструктуру,” мостыни критический разрыв между прозрачностью и оперативной наблюдаемостью.

Реальная проблема: необъяснимые производительность модели.

Я строил систему рекомендаций с высоким трафиком. Внезапно я наблюдал внезапное и необъяснимое падение в точности прогноза. После тщательного исследования самой модели я обнаружил, что основная причина была прослежена до прерывистых проблем задержки в распределенной системе хранения, в данном случае AWS Simple Service (S3).

Согласно отчету Гартнера в 2023 году о надежности облачной инфраструктуры, 47% Незапланированного времени простоя в системах AI/ML связано с неправильной деятельностью инфраструктуры, включая задержку сети и узкие места для хранения.

Почему прозрачность инфраструктуры имеет значение

Производительность модели ИИ зависит от надежности базовой инфраструктуры. Фундаментальные элементы инфраструктуры, такие как задержка базы данных, производительность сети и распределение памяти, могут косвенно влиять на решения об искусственном интеллекте, внедряя мельчайшие, но эффективные смещения или неточности.

Задержки шипы в распределенных системах составляют ~ 35% деградации производительности модели ИИ, часто маскируемого как модель дрифтакак указано в справочнике Google Cloud SRE, 2022.

Чтобы решить эту проблему, я использовал методы наблюдения, обычно используемые в крупномасштабной распределенной системе, в частности Распределенная трассировка. Это позволило нам преодолеть разрыв между показателями инфраструктуры и прогнозами модели искусственного интеллекта.

Архитектура для объяснимой инфраструктуры ИИ

Чтобы визуализировать, как взаимодействуют компоненты, рассмотрите следующую упрощенную архитектуру:

Рисунок 1. Архитектурная схема для установки инфраструктуры

Установка OpenElemetry для конференции по сборам

Вот как я интегрировал Opentelemetry в наш конференция по сборам искусственного интеллекта для достижения прозрачности от инфраструктуры для моделирования решения.

Моя настройка OpenElemetry: Мы инициализируем OpenElemetry, чтобы проследить и захватывать подробные промежутки по всему конвейеру, обеспечивая гранулированную видимость в задержку и узкие места производительности.

# Opentelemetry setup от openelemetry import trace from opentelemetry.exporter.jaeger.trift import jaegerexporter из opentelemetry.sdk.trace import tracerprovider from opentelemetry.sdk.trace.export import -batchspanpessessor trace.set_tracer_provider (tracerprovider ()) trace.get_tracer (__ name__) jaeger_exporter = jaegerexporter (agent_host_name = «localhost», agent_port = 6831) span_processor = batchspanprocessor (jaeger_exporter) trace.get_tracer_provider (). add_span_processor (span_processorse) ai_inference (input_data): с tracer.start_as_current_span («ai_inference_pipeline») как span: infra_latence = ager_storage_latency () span.set_attribut Прогнозирование) возвращает прогнозирование # Измерение задержки хранилища для вызовов AWS S3 def Searge_storage_latency (): start_time = time.time () referm_user_query () latency_ms = (time.time () — start_time) * 1000 return latency_ms_ms 1234567891011121314151617181920212223242526272829303132333435363738 # opentelemetry setupffrom opentelemetry import tracefrom opentelemetry.exporter.jaeger.trift jaegeretry opentelemetry.sdk.trace import tracerproviderfrom opentelemetry.sdk.trace.export Импорт Batchspanprocessor trace.set_tracer_provider (tracerprovider ()) tracer = trace.get_tracer (__ name__) jaeger_exporter = jaegerexporter (agent_htracer (__ name__) jaeger_exporter = jaegerexporter (Agent_htracer (__ name__). agent_port = 6831) span_processor = batchspanprocessor (jaeger_exporter) trace.get_tracer_provider (). add_span_processor (span_processor) # Реализация Distributed TracingDef AI_INERENCE (input_data): с Tracer.Start_AS_Current_Span («AI_INFERENCE ‘as ai_infere infra_latency = searuge_storage_latency () span.set_attribute («storum_latency_ms», infra_latency) Predication = Run_model (input_data) span.set_attribut recome_user_query () latency_ms = (time.time () — start_time) * 1000 return latency_ms

Код 1. Настройка OpenElemetry для конференции по сборам AI

Визуализация метрик с мониторингами Grafana

Мы создали панели мониторинга Grafana для корреляции инфраструктурных событий с производительностью модели искусственного интеллекта. Вот упрощенная конфигурация:

Панель панели приборной панели Grafana для визуализации задержки: Эта панель визуально отслеживает задержку хранилища с течением времени, обеспечивая немедленную идентификацию потенциальных узких мест инфраструктуры.

{«Название»: «Задержка хранения», «Тип»: «График», «DataSource»: «Jaeger», «Targets»: [
{
«expr»: «rate(storage_latency_ms[5m]) «,» интервал «:» 1m «}],» yaxes «: [
{
«format»: «ms»,
«label»: «Latency (ms)»
},
{}
]
} 123456789101112131415161718 {«Название»: «Задержка хранения», «Тип»: «График», «DataSource»: «Jaeger», «Targets»: [ { «expr»: «rate(storage_latency_ms[5m]) «,» интервал «:» 1m «}],» yaxes «: [ { «format»: «ms», «label»: «Latency (ms)» }, {} ]}

Код 2. Настройка панели мониторинга Grafana для измерения задержки

Настройка оповещений Grafana для шипов задержки

Мы активно отслеживаем инфраструктуру с использованием оповещений. Чтобы обнаружить и предупреждать о проблемах задержки, я установил простое правило оповещения Grafana:

{«alert»: {«условия»: [
{
«evaluator»: {«params»: [300]»type»: «gt»}, «запрос»: {«params»: [«A», «5m», «now»]}, «Reducer»: {«Params»: []»type»: «avg»}, «type»: «Query»}]»executionEerrorState»: «оповещение», «частота»: «1m», «Handler»: 1, «имя»: «Задержка с высокой задержкой», «NodataState»: «no_Data», «Уведомления»: » []
}, «title»: «Alert задержки хранения», «type»: «Graph»} 1234567891011121314151617181920 {«warer»: {«Условия»: [ { «evaluator»: {«params»: [300]»type»: «gt»}, «запрос»: {«params»: [«A», «5m», «now»]}, «Reducer»: {«Params»: []»type»: «avg»}, «type»: «Query»}]»executionEerrorState»: «оповещение», «частота»: «1m», «Handler»: 1, «имя»: «Задержка с высокой задержкой», «NodataState»: «no_Data», «Уведомления»: » [] }, «title»: «Alert задержки хранения», «type»: «Graph»}

Код 3. Настройка оповещений о задержке шипов

Действующие идеи

Объединенная наблюдение: Важно интегрировать метрики ваших моделей искусственного интеллекта с показателями инфраструктуры. Цель северной звезды должна заключаться в отслеживании сквозного здоровья системы.
Упреждающее оповещение: Установка оповещений на аномалиях уровня инфраструктуры позволяет упреждать выявление проблем. Это обеспечивает более быстрое время выполнения заказа для исправлений исправлений и лучшего пользовательского опыта.
Регулярные обзоры: Обычно проверяйте здоровье инфраструктуры наряду с производительностью модели во время регулярных оперативных обзоров.

Эти объяснимые практики инфраструктуры, особенно с наблюдением, могут помочь организации значительно сократить время устранения неполадок. Это серьезное изменение в мышлении, в котором становится отладка упреждающий скорее, чем реактивный. Следовательно, значительно повышение надежности системы и укрепление доверия к решениям искусственного интеллекта.

Последние мысли

По моему скромному мнению, пересечение наблюдаемой инфраструктуры и объяснимого ИИ созрело для инноваций. Будущие системы ИИ будут сильно полагаться на прозрачные инструменты наблюдения инфраструктуры, методологии и процессы. Это обеспечивает большую ответственность за заинтересованные стороны и укрепляет доверие конечного пользователя при использовании систем ИИ. Обзор технологий MIT, 2024 год, в их исследовании говорится —

Следующая граница для надежного ИИ — это не просто объяснимые модели — это объяснимая инфраструктура.

Объяснимая инфраструктура ИИ — это не просто техническое решение; Это основополагающее и важно для создания надежного, надежного ИИ. Я хотел бы услышать ваши мысли — как вы обеспечиваете прозрачность в ваших системах ИИ?

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Pronnoy Goswami — это облачная, ИИ -инфраструктура и специалиста по распределенным системам, страдающего для создания масштабируемых и устойчивых архитектур. Он активно участвует в техническом сообществе в качестве автора, консультанта по стартапу и технического рецензента для ведущих издателей, таких как Springer, Apress и … Подробнее от Prononoy Goswami

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

TOR: Самый простой способ надежно просмотреть Интернет на Linux

Все о новой функции регистрации нового стека

Wizos: новое предприятие Linux, построенное на безопасном фундаменте Alpine

Создайте интеллектуального Slackbot, который знает ваше облако: 4 шага

Некоторые разработчики обращаются к загар после слияния маршрутизатора Remix/React

bpifrance кому принадлежит 2025

Как Heroku «переплатформирует» свою платформу

Агент ИИ и А2А в 2025 году: от подсказок до процессов

OTEL последним агентом наблюдения, который вы когда -либо установили?

Как Java вызвала революцию с открытым исходным кодом 30 лет назад

Фильтр Valkey Bloom обнаруживает мошенничество (не ломая банк)

Три лучших агентских вариантов использования ИИ для современных ИТ -операций

Вам тоже может быть интересно:

Bria приносит новое финансирование для моделей искусственного интеллекта, обученных лицензированным данным

Алками покупает Fintech Mantl за 400 миллионов долларов

Microsoft добавляет инструменты Deep Research с AI для Copilot

Последние недели, чтобы обеспечить свое место в центре внимания ИИ на сессиях TechCrunch: AI

X расширяет иск над рекламодателем «Бойкот», чтобы включить Lego, Nestlé, Pinterest и другие

Redalpine, основатели финансируют Back Magdrive от электрического двигателя

Composo помогает предприятиям отслеживать, dub copy trading

Facebook теперь хранит живые видео только на 30 дней, удаляет старые трансляции

ЕС отправляет Apple первые инструкции по совместимости DMA для приложений и подключенных устройств

Генеральный директор у бассейна говорит, что большинство компаний не должны создавать модели фонда

ИИ персонаж добавляет инструменты для родителей для повышения безопасности подростков

Scout Motors подал в суд на план продажи EV прямо на потребителей