Подготовьте данные для ИИ с помощью гигиены, управления и экспериментов

Готовы ли ваши данные к использованию ИИ?

Поскольку все больше и больше организаций вступают на этапы планирования внедрения ИИ, это становится серьезным вопросом. Правильный ответ на него представляет собой серьезную проблему.

Частично эта проблема связана с ожиданиями и узкими местами.

Модели искусственного интеллекта яркие, инновационные и повсюду. За несколько лет они стали буквально нарицательными. Тогда понятно, что модели кажутся естественной отправной точкой для ИИ. Но не модели создают настоящую проблему при внедрении ИИ.

Это данные.

В этой статье я рассмотрю, почему многие инициативы в области ИИ останавливаются не из-за ограничений моделей, а из-за того, что организациям сложно последовательно предоставлять этим моделям чистые, управляемые и контекстно-богатые данные. Я покажу, почему надежные, высококачественные данные, а не просто большее количество моделей, являются настоящей основой эффективного ИИ.

Почему проекты искусственного интеллекта останавливаются из-за данных

ИИ — сложная технология. Чтобы добиться успеха, ИИ требует данных.

Самые передовые модели в мире не смогут принести пользу без надежной базы данных. ИИ хорош настолько, насколько хороши данные, которые его питают, а также насколько хороши гигиена, управление и экспериментирование, необходимые для его работы.

Важность доступа к данным для ИИ

И под всем этим скрывается еще одна проблема: доступ к данным. Без надежного доступа к данным модели не смогут использовать необходимые им данные.

И это не вызывает гипотетических проблем; это вызывает настоящую технологическую головную боль. Существует разрыв между демонстрациями моделей и реальностью корпоративных проектов ИИ, которые застопорились.

В целом это означает, что качество данных и управление — это только половина дела; Оперативное экспериментирование — недостающий ингредиент для зрелости ИИ.

По сути, это поднимает две основные проблемы, которые работают в тандеме:

  • Объединение данных для быстрого экспериментирования и прототипирования.
  • Озера данных Iceberg для масштабируемости и производительности.

Давайте рассмотрим каждый из них более подробно.

Почему объединение данных является ответом на доступ к данным ИИ

Доступ к данным не может быть второстепенным. Слишком часто решение этой проблемы оказывалось односторонним путем к централизации данных в хранилище данных.

Проблема в том, что это редко срабатывает. Когда это действительно работает, это всегда дорого и отнимает много времени. Хуже всего то, что конечный результат приводит к привязке к поставщику, что ограничивает возможности для экспериментов и ограничивает внедрение будущих технологий, стратегий и подходов.

Решение этой проблемы требует иного подхода.

Как объединение данных помогает получить доступ к данным

Вместо перемещения данных федерация делает распределенные наборы данных доступными, где бы они ни находились, попутно применяя управление и детальный контроль доступа. Это решает проблему доступа к данным элегантным и сложным способом, обеспечивая доступ к любому источнику данных сейчас или в будущем.

Это имеет одно особое преимущество: Возможность экспериментировать.

Как объединение данных повышает скорость экспериментов

Разработка модели — это итеративный процесс. Специалисты по данным редко знают точную форму необходимых им функций с самого начала. Вместо этого они экспериментируют, проверяют гипотезы и итеративно совершенствуют их.

Федерация помогает этим усилиям, непосредственно расширяя эксперименты.

Сделав запросы к распределенным наборам данных там, где они находятся, ученые, работающие с данными, могут исследовать данные из нескольких источников, не дожидаясь длительных циклов ETL. Эта стратегия ускоряет создание прототипов, сокращает циклы обратной связи и дает командам возможность исследовать больше идей за меньшее время, улучшая связь с базовой бизнес-логикой.

Как только вы проведете эти эксперименты, создадите прототипы и согласуете бизнес-логику, начнется другой этап.

Масштабирование. Именно здесь хранилища данных демонстрируют свое второе преимущество.

Почему открытые дома у озер меняют правила игры в масштабировании внедрения ИИ

Озера данных создаются для быстрого и легкого масштабирования. Стандартизируя доступ с помощью таких форматов, как Apache Iceberg, команды могут запрашивать данные в облачных, локальных и гибридных средах, не привязывая свои данные к проприетарным системам. Кроме того, по мере роста объемов данных Lakehouses позволяют приложениям искусственного интеллекта расти вместе с ними, эффективно масштабируясь без связанных с этим затрат на хранилище данных.

Результатом является модель, в которой данные одновременно пригодны для использования и управления, что позволяет аналитике и искусственному интеллекту работать на одной и той же надежной основе.

Как успешно внедрить ИИ посредством итерации

Практический путь к внедрению ИИ начинается с использования уже имеющихся у вас данных там, где они находятся.

Отсюда организации могут решить, насколько централизовать, сбалансировав затраты, соответствие требованиям и производительность. После установления согласованного доступа команды могут выполнять итерации: экспериментировать с управляемыми ветвями данных, проверять результаты и быстро адаптироваться.

Именно этот цикл доступа, выбора и экспериментирования превращает ИИ из пилотных проектов в производственные результаты.

Насколько продукты данных важны для управления данными ИИ

После того, как вы решили проблему доступа к данным, следующим важным шагом в создании вашего решения ИИ станет решение проблемы управления данными. Без этого проекты ИИ часто даже не могут сдвинуться с мертвой точки.

Учитывая это, управление данными является необходимым препятствием для преодоления любого проекта ИИ, и хотя потребность в управлении данными часто носит организационный или юридический характер, решения этой проблемы полностью технологические.

Обычно при разработке управления данными для ИИ необходимо пройти три ключевых этапа, прежде чем можно будет начать проект ИИ:

  • Безопасность данных
  • Качество данных
  • Деловой смысл

Без защиты данных любой проект ИИ обречен на провал. Всем организациям требуется безопасность как на уровне источника данных, так и на агентном уровне как основополагающем аспекте использования ИИ. Аналогичным образом, без качественных данных понимание, которое предоставит ИИ, будет ограниченным и проблематичным. Наконец, если бизнес-логика не будет должным образом закодирована в данные в форме ценных метаданных, ценность для бизнеса будет ограничена, а полученные знания будут носить общий характер.

Почему продукты данных применяют продуктовое мышление к данным

Продукты данных — это самая важная инновация в области управления доступом к данным для ИИ. Они обеспечивают простой, доступный и безопасный способ взаимодействия с базовыми наборами данных, а также придают критически важное бизнес-значение и семантику.

Для проектов ИИ продукты данных позволяют соответствующим образом управлять универсальным доступом, гарантируя, что модели ИИ получают только нужные данные правильным способом. Кроме того, бизнес-метаданные и семантика улучшают качество ответов модели и уменьшают галлюцинации.

Это правильный выбор для доступа к данным, но это также правильный выбор для соблюдения требований и нормативного надзора, который часто требует, чтобы доступ к ИИ был предсказуемым и проверяемым.

В проекте за проектом мы обнаруживаем схожие проблемы с внедрением ИИ. Модели уже существуют, но вопросы доступа и управления необходимо решать вместе.

Полезно рассмотреть пример, чтобы увидеть, как это работает на практике.

Практический пример: как компания, предоставляющая финансовые услуги, внедрила искусственный интеллект без перемещения данных

Один из наших клиентов, крупная компания, предоставляющая финансовые услуги, столкнулся с одной из самых сложных проблем в отрасли: созданием аналитики Customer360 и анализа рисков в контексте нормативных требований и операционных систем.

Традиционно решение этой проблемы требовало репликации конфиденциальных данных в централизованные системы, что создавало риски соблюдения требований и замедляло время отклика.

Как компания финансовых услуг использовала Data Federation

Вместо этого компания финансовых услуг приняла федеративный подход. Оставив данные на месте и сделав их доступными для запроса там, где они находились, они позволили принимать решения о клиентах и ​​рисках в режиме реального времени, не создавая дорогостоящего дублирования и позволяя аналитикам быстро обрабатывать вопросы. Кроме того, ключевую роль сыграло принятие стратегии «озерного дома», предоставившей компании управляемые и проверяемые таблицы, которые можно масштабировать в соответствии с глобальными рабочими нагрузками.

Как компания финансовых услуг успешно внедрила ИИ

Результатом стала система, способная сканировать транзакции по мере их поступления, получать информацию в режиме реального времени по мере их возникновения и поддерживать последующие действия с регулируемым доступом к нужным данным в правильном контексте. Важно отметить, что те же регулируемые наборы данных, которые лежат в основе рабочих процессов обеспечения соответствия, также используются в моделях искусственного интеллекта для создания Customer360.

Вывод: внедрение ИИ начинается с данных

Этот подход показал, как на практике выглядит зрелость ИИ. Речь шла не только о развертывании передовых моделей, но и о том, чтобы чистые, управляемые и объединенные данные были доступны по требованию и без ущерба для соответствия требованиям.

Создание успешной базы данных для ИИ

Проекты ИИ легко чувствуют себя оторванными от других проектов обработки данных. Несмотря на мощь и революционный характер моделей ИИ, успех проектов ИИ часто сводится к трем вещам:

  • Доступ к данным
  • Управление данными
  • Продукты данных

Без этих основополагающих строительных блоков модели ИИ с трудом получают необходимый доступ, а проекты затрудняются из-за отсутствия управления для работы в соответствии с требованиями.

У нас есть инструменты для решения этих проблем

Хорошая новость в том, что мы можем решить эти проблемы. Более того, на самом деле это те же самые проблемы, которые инженеры по обработке данных решали годами, с дополнительной технологией модели искусственного интеллекта, служащей конечной точкой.

Такой взгляд на проблему является хорошей новостью для всех, кому поручено реализовать успешный проект ИИ. Это значит, что инструменты в ваших руках, и методологии тоже.

Такие подходы, как объединение данных и продукты данных, уже были полезны в аналитике. Теперь они имеют решающее значение в ИИ.

ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Брайан Луизи — вице-президент Starburst по техническим решениям и ветеран в области данных. Он проработал в Starburst более шести лет, помогая клиентам Starburst на пути к искусственному интеллекту и создавая архитектора решений, службу поддержки и… Подробнее от Брайана Луизи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *