Создание самосознательного предприятия с помощью GenAI

PingCAP спонсировал этот пост.

Предприятие стоит на пороге больших преобразований. В каком-то смысле оно вот-вот обретет самосознание.

Что я имею в виду под этим? В настоящее время предприятия узнают о себе, анализируя данные, которые они собрали, преобразовали и сохранили. Выбор этих данных определяет, что можно знать, а что нет. Предприятие может понять только то, что оно решит понять заранее. Это не то, что я бы назвал самосознанием.

По-настоящему самосознательное предприятие, по моему определению, — это предприятие, имеющее доступ к любым организационным данным, которые могут потребоваться для специального анализа. Это тот, кто может ответить на любой вопрос о себе — даже на вопросы, которые никто раньше не думал задавать. Ни одна деталь его операций не должна оставаться за пределами его досягаемости.

Этот сценарий ближе к реальности, чем кто-либо мог подумать всего несколько лет назад, благодаря двум важным нововведениям. Прежде всего, это массовая коммерциализация генеративного ИИ (GenAI), в частности модели большого языка (LLM), которая упростила анализ данных с использованием подсказок на естественном языке. Второе — масштабируемое хранилище векторных данных. Это не только хранит корпоративные данные, но и делает их доступными для семантического поиска в приложениях GenAI. Хранилища векторных данных не являются чем-то новым, но это хорошо масштабируемые хранилища. Масштаб важен, когда вы экономите объем данных, необходимый самосознательному предприятию.

В идеальном конечном состоянии все данные вашего предприятия будут доступны вашему ИИ.

Этот подход, широко известный как генерация с расширенным поиском (RAG), используется разработчиками для создания чат-ботов на базе искусственного интеллекта или экспертных систем вопросов и ответов. В данном случае субъектом является само предприятие: его региональные продажи, отчеты о найме, расходы, переписка, квартальные планы и сроки разработки продукции. Теоретически все можно запросить через LLM. Через этот интерфейс можно ответить на любой вопрос, который можно задать любому сотруднику предприятия.

Переход к самосознающемуся предприятию

Основные компоненты трансформации самосознания доступны уже сегодня. Их внедрение требует тщательности, подготовки и участия межфункциональной команды. Работая вместе, следует помнить о нескольких принципах.

Избегайте создания новых бункеров

Фрагментации нет места в самосознательном предприятии. Простота и элегантность должны быть вашими девизами. Вашему приложению RAG, вероятно, потребуется работать с комбинацией векторизованных данных, поддерживающих семантический поиск, а также структурированных корпоративных данных, для которых потребуется определенная форма поиска по ключевым словам.

В идеале вы должны развернуть агент ИИ, который мог бы анализировать запрос, решать: «Эта часть требует семантического поиска, а эта часть — поиск SQL», получать соответствующие данные и объединять их с помощью LLM.

Семантический поиск оказывает наибольшее влияние на неструктурированные данные, такие как текстовые документы и мультимедийные файлы. Это идеальные кандидаты для векторизации. Но много полезного материала содержится в традиционных структурированных данных. Подумайте о записях транзакций и данных временных рядов: заказы, пользователи, файлы журналов. Вы можете развернуть специальную базу данных векторов для хранения внедренных данных, но хранение данных в отдельных системах может привести к возникновению трений и слепых зон.

Для большинства предприятий более эффективным подходом является консолидация данных на единой платформе, которая может хранить данные в векторных и реляционных форматах и ​​поддерживать семантический поиск наряду с поиском по ключевым словам и запросами SQL.

Отдавайте приоритет безопасности и конфиденциальности

Вам понадобится способ гарантировать, что разные пользователи имеют разные уровни доступа к конфиденциальной информации. К сожалению, универсального решения этой проблемы не существует. Окончательное решение, вероятно, будет зависеть от ИИ. В настоящее время большинство предприятий полагаются на сочетание контроля доступа на основе ролей и атрибутов (RBAC/ABAC) для управления разрешениями. Насколько это возможно, вы хотите унифицировать идентификацию, обеспечить соблюдение разрешений в источнике и регистрировать все. Отдавайте предпочтение системам данных, которые обеспечивают детальный контроль над этими функциями и позволяют вам «принести свое собственное облако» (BYOC) для обеспечения максимальной согласованности.

Предварительная обработка неструктурированных данных с помощью LLM перед векторизацией

Для PDF-файлов, слайдов и других неструктурированных форматов не стоит просто векторизовать необработанный контент. Используйте LLM для извлечения и структурирования ключевой информации, такой как сводки, таблицы и сущности, чтобы улучшить семантическое качество и обеспечить более содержательный поиск.

Например, вы можете использовать базу данных, совместимую с SQL, в качестве центра сохранения и индексирования необработанных данных, а Kafka и Flink — для потоковой передачи и обработки данных на пути к LLM, который затем извлекает сводки и сущности и сохраняет их обратно в хранилище данных SQL.

Создайте запрашиваемую диаграмму знаний

После того как вы объединили структурированные и неструктурированные данные, рассмотрите возможность создания графа знаний, который кодирует семантические отношения и действует как дополнительный источник контекста для LLM. Этот граф также может находиться на единой платформе данных и предоставлять интерфейсы SQL и граф, повышая качество поиска и рассуждений во время генерации. Другими словами, заранее обработайте структурированные данные, чтобы обогатить семантический поиск по неструктурированным данным в хранилище векторных данных.

Современные SQL-совместимые базы данных, такие как TiDB, могут напрямую хранить графовые структуры данных для поддержки гибридных запросов, что помогает поддерживать строгую согласованность и высокую доступность.

Инвестируйте в наблюдаемость для обеспечения качества данных и поведения запросов

Во время разработки крайне важно обеспечить возможность наблюдения за конвейерами данных, включая мониторинг чистоты данных, структуры и развития графа знаний, а также эффективности и производительности запросов. Это гарантирует, что система останется надежной, объяснимой и простой в использовании в масштабах предприятия.

Имейте план обеспечения качества данных

Все данные не равны. Хранилища корпоративных данных неизбежно содержат большое количество устаревших, заброшенных или противоречивых документов, включая вики, PDF-файлы, слайды и предварительные черновики. Включение их в базу знаний без тщательного контроля — верный способ внести шум, дезинформацию и путаницу в последующие приложения LLM. Вам понадобится стратегия для предоставления привилегий каноническим источникам данных и разрешения конфликтов.

Заключение

Предприятие, обладающее самосознанием, вполне достижимо, но для его реализации требуется нечто большее, чем просто технология. Это требует ясности архитектуры, дисциплинированной гигиены данных и стремления устранить разрозненность — как техническую, так и организационную. Предприятия, которые примут этот сдвиг, получат нечто мощное: способность задавать более качественные вопросы, быстрее принимать решения и действовать с уровнем интроспективного интеллекта, который когда-то был невообразим. В мире, где преимущества достаются наиболее информированным, самосознание — это не просто добродетель. Это конкурентное преимущество.

TiDB на базе PingCAP открывает безграничные масштабы для предприятий с интенсивным использованием данных. Наша передовая распределенная база данных SQL позволяет ведущим предприятиям и цифровым компаниям создавать кластеры петабайтного уровня, одновременно управляя миллионами таблиц, частыми изменениями схемы и масштабируясь с нулевым временем простоя. Узнайте больше Последние новости от PingCAP ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Эд Хуанг — соучредитель и технический директор TiDB на платформе PingCAP. Во время работы в Wandou Labs он работал над кластеризацией Redis, а также создал и открыл исходный код Codis, высокопроизводительного кластерного решения Redis на основе прокси. Затем Эд решил… Подробнее от Эда Хуанга

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *