Ваш главный приоритет на 2026 год? Подготовьте свои данные для ИИ

Red Hat спонсировала этот пост.

Ваш успех ИИ зависит от ваших данных. Чем более унифицированы ваши данные в вашей организации, тем больше результатов принесет ваша стратегия искусственного интеллекта. Но раскрыть эту ценность далеко не так просто, особенно в свете разрозненных и разбросанных источников данных.

«У вас есть разные направления бизнеса», — сказал Джо Джордано, главный архитектор полевой технической службы Red Hat. «На самом деле они все заинтересованы в разных данных, не обязательно знают, где находятся все эти данные, и у них нет к ним доступа».

Это заставляет организации изо всех сил пытаться найти различные варианты использования ИИ. Или, как показало недавнее исследование MIT NANDA, 95% пилотов ИИ терпят неудачу из-за экспериментов, запертых в хранилищах данных.

Как инженерное руководство, 2025 год, вероятно, стал годом, когда вы сделали ИИ своим приоритетом сверху вниз. Хотите резолюцию на 2026 год? Очистите и организуйте свои внутренние данные на внутренней платформе разработчиков, чтобы вы могли действительно достичь прошлогодних целей. Вот как.

Получите и подготовьте ваши данные

Вы не знаете, что у вас есть. Потому что хранилища данных реальны, и даже если вы разберете их и найдете все источники данных, они не будут говорить на одном языке.

Бизнес-ценность ИИ заключается в межорганизационном преобразовании данных. Но это не просто.

Найдите и пометьте данные

Например, в сфере финансовых услуг существуют отдельные подразделения, такие как управление благосостоянием и управление активами. Но что касается внедрения ИИ, по словам Джордано, они, по сути, пытаются сделать то же самое, хотя, возможно, у одного данные хранятся в Amazon Web Services (AWS), а у другого — локально. Обнаружение данных ИИ начинается с осознания других услуг, баз данных и вариантов использования в бизнесе, а также с осознания того, что огромный объем данных застрял в электронных таблицах и PDF-файлах.

Как только данные найдены, их необходимо очистить и пометить. В одной и той же организации, предоставляющей финансовые услуги, одни и те же необработанные данные — например, запись о покупке клиентом дебетовой карты в местном кафе — могут быть помечены по-разному в зависимости от отдела:

  • Маркетинг и продажи: Учитывая цель понимания поведения клиентов и целевых предложений, ярлыки могут включать дискреционные расходы, еду и напитки, ежедневные поездки на работу.
  • Риск и мошенничество: В зависимости от места и регулярности этой покупки метки могут включать нормальную транзакцию, местоположение с высоким риском, возможный компрометация учетной записи.
  • Соответствие нормативным требованиям: Со стороны банка метки могут включать флаг мониторинга AML (имеется в виду борьба с отмыванием денег), транзакция с низким уровнем риска.

Поскольку ИИ хорош в понимании взаимоотношений и переводе, он может быть очень полезен при создании межорганизационной унифицированной модели данных, которую можно использовать для обучения ваших больших языковых моделей (LLM).

«Масштабирование ИИ означает объединение слоев реального времени для голоса, текста, поиска и транзакций, одновременно обеспечивая конфиденциальность, соответствие требованиям и федеративное обучение», — сказала Дана Лоусон, технический директор Netlify. «Предприятия заслужили доверие благодаря своей репутации в области конфиденциальности и безопасности, и им придется распространить эту строгость на новые конвейеры, управляемые искусственным интеллектом».

Стратегия проектирования платформы может помочь как в обнаружении с помощью ИИ этих различных источников данных, так и в конечных точках API, которые их соединяют. Затем вы можете добавить внутренний наложение чат-бота, чтобы сделать данные более доступными для поиска, перевода и использования в различных функциях.

Внутренняя платформа разработчиков также является стандартным способом проложить «золотые пути» или самым простым способом добиться чего-либо с вашими данными и кодом, оставаясь при этом в пределах ограничений для поддержки ваших требований конфиденциальности и безопасности.

Разблокируйте неструктурированные данные

Именование — не единственное несоответствие данных, которое необходимо устранить.

Как выразился Патрик Дебуа, автор термина «DevOps», «большая часть информации внутри вашей компании представляет собой неструктурированные данные, и вы хотите индексировать эту информацию».

Большинство организаций используют векторную базу данных, «которая похожа на поисковую систему, но является посланником семантического поиска», — пояснил он.

В то время как структурированные данные аккуратно помещаются в электронную таблицу, неструктурированные данные — от электронных писем, PDF-файлов, слайд-шоу и публикаций в социальных сетях до аудио- и видеофайлов и машинно-генерируемых данных от таких вещей, как датчики и спутники — это все остальное.

Если ваша организация сможет во всем этом разобраться, вы потенциально сможете раскрыть истинную ценность ИИ. Опять же, ИИ действительно хорош в чтении информации — даже той, которая застряла в PDF-файле или отсканированной форме 20-летней давности, — а затем осмыслении ее в более широком контексте. Вам просто нужно решить, в контексте вашей организации, какие данные действительно полезны для включения.

Предварительная обработка и очистка данных

Далее следует предварительная обработка и очистка данных для уменьшения «шума» или ненужной информации. Затем происходит перевод этих неструктурированных данных в числовое представление, которое затем можно пометить и аннотировать.

Любая стратегия ИИ также должна учитывать рабочие нагрузки с сохранением и без сохранения состояния.

Большая часть нашего облачного, основанного на контейнерах мира основана на рабочих нагрузках без сохранения состояния, когда приложение не сохраняет данные или «состояние» от одного запроса или транзакции к другому.

С другой стороны, рабочие нагрузки с отслеживанием состояния сохраняют постоянные, надежные и согласованные данные в контексте, а также между сеансами, запросами и даже перезапусками приложений. Распространенными вариантами использования с сохранением состояния являются базы данных, финансовые системы, связь в реальном времени, серверы электронной почты, очереди сообщений, системы управления контентом и корзины покупок электронной коммерции.

Любая стратегия данных ИИ должна управлять этими различными вариантами использования с учетом высочайшего уровня безопасности.

Централизуйте данные и сделайте их доступными с помощью платформы

После очистки вы должны централизовать эти данные в единой базе данных или озере данных. Включите разрозненные источники данных внутри организации и через сторонние API, а также соответствующие отраслевые источники открытых данных.

Эти данные лучше всего унифицировать и совместно использовать в облаке — будь то публичное, частное или гибридное облако. И вы должны следить за всем этим, чтобы обнаружить дрейф и обеспечить соответствие и точность. Платформенный подход также позволяет вам измерять производительность в соответствии с вашими целями уровня обслуживания (SLO).

К данным нужно относиться как к инфраструктуре, объяснил Джордано из Red Hat: «Нам необходимо постоянно отслеживать эти изменения. Приложение не обязательно меняется или развивается само по себе, когда оно подключается к базе данных».

Межкорпоративная стратегия искусственного интеллекта нуждается в платформе, которая объединила бы обнаружение данных и управление доступом к ним. Этот конвейер данных также должен быть настроен таким образом, чтобы его можно было проверить.

Этот трудный, но важный процесс подготовки и централизации данных требует подхода на основе платформы, при этом, возможно, команда разработчиков платформы — в партнерстве с отделом обработки данных и отделом искусственного интеллекта — координирует эту централизацию, очистку данных и управление доступом на основе ролей (RBAC).

Платформа также является предпочтительным способом обеспечения доступа к самообслуживанию, что сокращает время, необходимое для достижения окупаемости инвестиций (ROI) для ваших теперь курируемых данных и программы искусственного интеллекта.

В конце концов, окупаемость инвестиций в ИИ должна распространяться на бизнес и процессы. И хотя уникальная ценность вашей стратегии ИИ заключается в ваших данных, все сводится к межфункциональным межорганизационным диалогам, которые они облегчают.

Зарегистрируйтесь сейчас, чтобы одним из первых получить мою новую бесплатную электронную книгу: «ИИ для предприятия: руководство по разработке и масштабированию вашей стратегии ИИ».

Red Hat OpenShift — это безграничные инновации. Воплощайте большие идеи в жизнь с помощью гибридной облачной платформы, открытой для любого приложения, команды или инфраструктуры. Узнайте больше Последние новости от Red Hat ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одного выпуска. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Дженнифер Риггинс — рассказчик о технологиях и журналист, ведущая мероприятий и дискуссий. Она устраняет разрыв между бизнесом, культурой и технологиями, ее работа основана на опыте разработчиков. Она работает писателем с 2003 года и живет… Подробнее от Дженнифер Риггинс.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *