Создание самосознательного предприятия с помощью GenAI

PingCAP спонсировал этот пост.

Предприятие стоит на пороге больших преобразований. В каком-то смысле оно вот-вот обретет самосознание.

Что я имею в виду под этим? В настоящее время предприятия узнают о себе, анализируя данные, которые они собрали, преобразовали и сохранили. Выбор этих данных определяет, что можно знать, а что нет. Предприятие может понять только то, что оно решит понять заранее. Это не то, что я бы назвал самосознанием.

По-настоящему самосознательное предприятие, по моему определению, — это предприятие, имеющее доступ к любым организационным данным, которые могут потребоваться для специального анализа. Это тот, кто может ответить на любой вопрос о себе — даже на вопросы, которые никто раньше не думал задавать. Ни одна деталь его операций не должна оставаться за пределами его досягаемости.

Этот сценарий ближе к реальности, чем кто-либо мог подумать всего несколько лет назад, благодаря двум важным нововведениям. Прежде всего, это массовая коммерциализация генеративного ИИ (GenAI), в частности модели большого языка (LLM), которая упростила анализ данных с использованием подсказок на естественном языке. Второе — масштабируемое хранилище векторных данных. Это не только хранит корпоративные данные, но и делает их доступными для семантического поиска в приложениях GenAI. Хранилища векторных данных не являются чем-то новым, но это хорошо масштабируемые хранилища. Масштаб важен, когда вы экономите объем данных, необходимый самосознательному предприятию.

В идеальном конечном состоянии все данные вашего предприятия будут доступны вашему ИИ.

Этот подход, широко известный как генерация с расширенным поиском (RAG), используется разработчиками для создания чат-ботов на базе искусственного интеллекта или экспертных систем вопросов и ответов. В данном случае субъектом является само предприятие: его региональные продажи, отчеты о найме, расходы, переписка, квартальные планы и сроки разработки продукции. Теоретически все можно запросить через LLM. Через этот интерфейс можно ответить на любой вопрос, который можно задать любому сотруднику предприятия.

Переход к самосознающемуся предприятию

Основные компоненты трансформации самосознания доступны уже сегодня. Их внедрение требует тщательности, подготовки и участия межфункциональной команды. Работая вместе, следует помнить о нескольких принципах.

Избегайте создания новых бункеров

Фрагментации нет места в самосознательном предприятии. Простота и элегантность должны быть вашими девизами. Вашему приложению RAG, вероятно, потребуется работать с комбинацией векторизованных данных, поддерживающих семантический поиск, а также структурированных корпоративных данных, для которых потребуется определенная форма поиска по ключевым словам.

В идеале вы должны развернуть агент ИИ, который мог бы анализировать запрос, решать: «Эта часть требует семантического поиска, а эта часть — поиск SQL», получать соответствующие данные и объединять их с помощью LLM.

Семантический поиск оказывает наибольшее влияние на неструктурированные данные, такие как текстовые документы и мультимедийные файлы. Это идеальные кандидаты для векторизации. Но много полезного материала содержится в традиционных структурированных данных. Подумайте о записях транзакций и данных временных рядов: заказы, пользователи, файлы журналов. Вы можете развернуть специальную базу данных векторов для хранения внедренных данных, но хранение данных в отдельных системах может привести к возникновению трений и слепых зон.

Для большинства предприятий более эффективным подходом является консолидация данных на единой платформе, которая может хранить данные в векторных и реляционных форматах и поддерживать семантический поиск наряду с поиском по ключевым словам и запросами SQL.

Отдавайте приоритет безопасности и конфиденциальности

Вам понадобится способ гарантировать, что разные пользователи имеют разные уровни доступа к конфиденциальной информации. К сожалению, универсального решения этой проблемы не существует. Окончательное решение, вероятно, будет зависеть от ИИ. В настоящее время большинство предприятий полагаются на сочетание контроля доступа на основе ролей и атрибутов (RBAC/ABAC) для управления разрешениями. Насколько это возможно, вы хотите унифицировать идентификацию, обеспечить соблюдение разрешений в источнике и регистрировать все. Отдавайте предпочтение системам данных, которые обеспечивают детальный контроль над этими функциями и позволяют вам «принести свое собственное облако» (BYOC) для обеспечения максимальной согласованности.

Предварительная обработка неструктурированных данных с помощью LLM перед векторизацией

Для PDF-файлов, слайдов и других неструктурированных форматов не стоит просто векторизовать необработанный контент. Используйте LLM для извлечения и структурирования ключевой информации, такой как сводки, таблицы и сущности, чтобы улучшить семантическое качество и обеспечить более содержательный поиск.

Например, вы можете использовать базу данных, совместимую с SQL, в качестве центра сохранения и индексирования необработанных данных, а Kafka и Flink — для потоковой передачи и обработки данных на пути к LLM, который затем извлекает сводки и сущности и сохраняет их обратно в хранилище данных SQL.

Создайте запрашиваемую диаграмму знаний

После того как вы объединили структурированные и неструктурированные данные, рассмотрите возможность создания графа знаний, который кодирует семантические отношения и действует как дополнительный источник контекста для LLM. Этот граф также может находиться на единой платформе данных и предоставлять интерфейсы SQL и граф, повышая качество поиска и рассуждений во время генерации. Другими словами, заранее обработайте структурированные данные, чтобы обогатить семантический поиск по неструктурированным данным в хранилище векторных данных.

Современные SQL-совместимые базы данных, такие как TiDB, могут напрямую хранить графовые структуры данных для поддержки гибридных запросов, что помогает поддерживать строгую согласованность и высокую доступность.

Инвестируйте в наблюдаемость для обеспечения качества данных и поведения запросов

Во время разработки крайне важно обеспечить возможность наблюдения за конвейерами данных, включая мониторинг чистоты данных, структуры и развития графа знаний, а также эффективности и производительности запросов. Это гарантирует, что система останется надежной, объяснимой и простой в использовании в масштабах предприятия.

Имейте план обеспечения качества данных

Все данные не равны. Хранилища корпоративных данных неизбежно содержат большое количество устаревших, заброшенных или противоречивых документов, включая вики, PDF-файлы, слайды и предварительные черновики. Включение их в базу знаний без тщательного контроля — верный способ внести шум, дезинформацию и путаницу в последующие приложения LLM. Вам понадобится стратегия для предоставления привилегий каноническим источникам данных и разрешения конфликтов.

Заключение

Предприятие, обладающее самосознанием, вполне достижимо, но для его реализации требуется нечто большее, чем просто технология. Это требует ясности архитектуры, дисциплинированной гигиены данных и стремления устранить разрозненность — как техническую, так и организационную. Предприятия, которые примут этот сдвиг, получат нечто мощное: способность задавать более качественные вопросы, быстрее принимать решения и действовать с уровнем интроспективного интеллекта, который когда-то был невообразим. В мире, где преимущества достаются наиболее информированным, самосознание — это не просто добродетель. Это конкурентное преимущество.

TiDB на базе PingCAP открывает безграничные масштабы для предприятий с интенсивным использованием данных. Наша передовая распределенная база данных SQL позволяет ведущим предприятиям и цифровым компаниям создавать кластеры петабайтного уровня, одновременно управляя миллионами таблиц, частыми изменениями схемы и масштабируясь с нулевым временем простоя. Узнайте больше Последние новости от PingCAP ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Эд Хуанг — соучредитель и технический директор TiDB на платформе PingCAP. Во время работы в Wandou Labs он работал над кластеризацией Redis, а также создал и открыл исходный код Codis, высокопроизводительного кластерного решения Redis на основе прокси. Затем Эд решил… Подробнее от Эда Хуанга

Разработка сайтов в Гомеле

Добавить комментарий Отменить ответ

Похожие записи

Агентное кодирование: как Google Jules сравнивается с Claude Code

Реальность открытого исходного кода: больше щенков, меньше пива

Взяв массивы Java в другое измерение

Как мы можем решить проблему сбора данных и расходов Observability?

Познакомьтесь с 11-летним, чей кодекс был принят игровым гигантом

Oauth работает для агентов ИИ, но масштабирование — это еще один вопрос

ИИ облака летают слепые: иллюзия защиты времени выполнения.

Направления событий: более быстрая альтернатива веб -крючкам

Дело против метрик для производительности разработчиков

ClickOps — позор

Декодировать любой код Python с помощью этого 5-ступенчатого метода

Позвольте AI -подъему, чтобы сотрудники могли вести

Вам тоже может быть интересно:

От жесткого к мягкому в мгновение ока: магнитное заклинивание открывает новые горизонты для микроробототехники

Растягиваемая полимерная пена датчик обнаруживает широкий диапазон движения с высокой чувствительностью

Энергоэффективная, высокая система измерения с использованием сходства формы волны

Ученые обнаруживают новый способ превратить кукурузные отходы в недорогой сахар для биотоплива

Прототип светодиода толщиной с обои может светиться, как солнце

ОКЛАВАЯ ПАНЕЛА СМЕРЫ: Динамический дисплей смартфона со интегрированной технологией динамиков.

Исследователь разрабатывает генеративную модель обучения для прогнозирования падений

Исследователи находят вулканическую пепел.

Умная упаковка раскрывает состояние продукта через изменения цвета

Инженеры переделали хоботок комара в сопло для 3D-печати

Активная схема интерферометрии оптической интенсивности обеспечивает визуализацию синтетической апертуры с более километра

X-59 НАСА завершил первый полет и готовится к дальнейшим летным испытаниям