ИИ существует повсюду, от личных помощников до автономных систем, в то время как облако служит его фундаментальной основой. Невероятная сила создает реальные работы по эксплуатации. Облако обеспечивает быстрый рост рабочих нагрузок искусственного интеллекта, потому что оно является ведущей платформой для хостинга и обучения этих систем в больших масштабах.
Управление систем ИИ в облачных средах требует конкретных операционных проблем. Инженеры и архитекторы должны решать основные проблемы в отношении доступности системы, надежности, наблюдаемости и ответственности. В следующем обсуждении рассматриваются эти оперативные проблемы и предоставляют практические решения.
Доступность: больше, чем просто вычислить питание
Компьютный характер рабочих нагрузок ИИ требует выделенных групп кластеров (DCG) для обеспечения производительности. Кластеры должны оставаться в пределах той же группы близости, чтобы уменьшить задержку, предотвращая тем самым распределение мультирегиона. Финансовые ограничения часто определяют измерение кластера, что приводит к снижению масштабируемости при увеличении спроса. Процесс обеспечения кластера и обновления становится трудным из -за нехватки оборудования по всему миру. Метод определения проблем с доступностью остается трудным для выполнения. Отсутствие встроенных диагностических инструментов и зависимость от внешних поставщиков приводит к расширенным сбоям обслуживания. Облачные провайдеры обеспечивают буферную емкость для увеличения спроса, однако эта возможность требует дополнительных расходов.
Лучшие способности отладки на дому уменьшат потребность в интеграторах обслуживания и сократят продолжительность ремонта для повышения доступности. Системы прогнозирования на основе искусственного интеллекта обеспечивают прогнозы о предстоящем дефиците мощности, которые можно отслеживать на региональных или образных уровнях. Активное управление запасами в сочетании с ускоренной аппаратной конструкцией помогает уменьшить эксплуатационные ограничения. Планирование рабочей нагрузки с непиковым выполнением задания и упреждаемом использовании экземпляра для несущественных задач позволяет лучше использовать ресурсы без ущерба для экономической эффективности.
Надежность: предотвращение неудач до того, как они нарушают
Надежность рабочей нагрузки требует минимизации перерывов, замедления производительности и сбоев. Обучение и выводы испытывают серьезную деградацию из -за проблем с нестабильностью, которые влияют на сетевые уровни или уровни хранения. Обновления платформы и исправления могут вызвать регрессии без надлежащей проверки во время тестирования.
Современные организации используют модели машинного обучения, чтобы обнаружить сбои в их начале и предотвратить их. Модели работают вместе со стратегиями «смену левых», которые выполняют аппаратные стресс-тестирование на этапах раннего жизненного цикла, чтобы обнаружить готовые к развертыванию проблемы. Лучшие диагностические инструменты обеспечивают правильную идентификацию сбоев, снижение назначений ложных сбоев и уменьшение возникновения повторного сбоя.
Процесс развертывания становится все более контролируемым методами, которые начинаются с приоритетов пустых узлов, за которыми следуют запланированные обновления в течение периодов технического обслуживания, чтобы минимизировать риски для рабочих нагрузок клиентов. Объединение этих стратегий поможет организациям укрепить общую надежность рабочих нагрузок с искусственным интеллектом.
Наблюдаемость: понимание шума в масштабе
Управление наблюдаемостью становится еще более сложной с растущей сложностью и спросом в системах ИИ. В ближайшие годы мы ожидаем, что бизнес облачного искусственного интеллекта будет расти, увеличив количество специализированных центров обработки данных. Это увеличит телеметрические данные от всех облачных сервисов, рабочих нагрузок клиентов, моделей искусственного интеллекта и оборудования. Такое большое количество данных телеметрии может быть шумным, что затрудняет поставщики облачных облачных провайдеров идентифицировать соответствующие сигналы и извлекать в жизнь практические идеи. Кроме того, отсроченные оповещения или неадекватный мониторинг в реальном времени вызывает задержку в обнаружении и смягчении проблем платформы, что приводит к плохому опыту клиентов.
Чтобы решить эти проблемы, облачные провайдеры должны улучшить стек наблюдения. Инвестирование в AIOPS для мониторинга инфраструктуры в режиме реального времени и строительства правил обнаружения аномалий, основанных на искусственном управлении, приведет к более быстрому обнаружению и смягчению. Кроме того, платформа для сквозной наблюдения поможет отслеживать телеметрию через вычислительные, хранения и сетевые слои. Это поможет обеспечить столь необходимый контекст для быстрого диагностики проблем. Эти возможности помогут стимулировать более плавную работу, более быструю реакцию инцидентов и лучшую стабильность платформы.
Ответственность: строительство этически звучащих систем ИИ
Облачные поставщики ИИ должны быть более ответственными и этичными при управлении данными, необходимыми для моделей ИИ. Они должны обеспечить справедливость, подотчетность и конфиденциальность данных, принимая решения AI, которые влияют на реальные сценарии. Кроме того, смещение в учебных данных или выходах моделей должно быть обнаружено и смягчено активно.
Облачные провайдеры повышают прозрачность среди заинтересованных сторон, чтобы убедиться, что они понимают, как системы ИИ принимают решения. Чтобы достичь этого, компании создают объяснимые модели и поддерживают журналы и телеметрию о модельных решениях. Кроме того, Cloud AI -компании инвестируют в рамки управления, такие как Microsoft Ather Committe или Princips Google, которые становятся отраслевыми стандартами для этического надзора.
Компании придерживаются строгих политик по защите данных, которые ограничивают использование данных клиентов для модельного обучения без согласия. Организации также инвестируют в обучение, сертификаты и документацию для содействия культуре ответственного развития ИИ. Справедливая инструментария Azure, SageMaker и справедливость Vertex AI предлагает практические способы выявления и исправления смещения модели ИИ.
Заключение
В ближайшие годы использование облачных платформ для размещения рабочих нагрузок искусственного интеллекта значительно увеличится. Такой высокий рост в ИИ потребует от компаний инвестировать в доступность, надежность, наблюдаемость и столбы ответственности. С правильной комбинацией инфраструктуры, инструментов, процесса и управления облако может стать основой для следующего поколения интеллектуальных, устойчивых систем ИИ.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Сэм Пракаш Бхери в настоящее время является главным менеджером технической программы в Microsoft Azure, он специализируется на управлении продуктами и программами, повышением устойчивости облака, надежности и инноваций при оптимизации производительности и устойчивости. Его области фокусировки включают ИИ на облаке, … Подробнее от Сэма Пракаша Бхери