VMware Tanzu спонсировал этот пост.
Естественный человеческий язык является идеальным интерфейсом для доступа к данным, и его разговорной целью является конечной целью. Усовершенствованный ИИ, основанный на крупных языковых моделях (LLMS), превосходит интерпретацию намерений человека и перевода разговорных запросов в точные ответы. Масштабируемая структура для поиска информации 21-го века необходимо для того, чтобы охватывать запросы на человеческий язык и обширные наборы данных. Это требует синергии AI-SQL.
Структурированный язык запросов (SQL), основанный на реляционной алгебре и теории наборов, реферат программирования и сложности хранения, чтобы сосредоточиться на поиске данных, включая местоположение данных, фильтрацию и сложные комбинации. Современный SQL работает в распределенных системах с тысячами ядер ЦП и расширенным индексацией для быстрых поисков (например, идентификатора учетной записи, векторизованный текст, изображения, видео) наряду с расширяемыми функциями, такими как обнаружение мошенничества.
Петтабит-масштабные и распределенные объектно-реляционные базы данных SQL, которые содержат расширяемые типы данных, такие как географические, изображения, график и временные ряды, могут быть доступны непосредственно для конечных пользователей. Это сделает поиск информации проще и более эффективным, не требуя расширенных навыков в написании запросов SQL.
Слово о поиске-аугментированном поколении
Поигрывательный поколение (RAG) является широко принятой основой для интеграции языковых моделей во внешнюю базу данных и ресурсы; Он часто используется в качестве техники, чтобы сделать чат -ботов более умными.
Несмотря на то, что в этой статье существует сходство между паттернами RAG и концепциями, в этой статье предлагается подход из первых принципов к поиску информации, сосредоточенный на AI в паре с распределенными, объектно-реляционными системами SQL. Там, где тряпичные узоры делают приложения ИИ более интеллектуальными, я изучаю, как сделать масштабируемые сложные системы баз данных более легко доступными с человеческим чатом.
ИИ — это человеческий интерфейс
Язык необходим для выражения идей и намерений. Но даже хорошо продуманный язык иногда может запутаться. Например, телефонный звонок часто разъясняет обмен электронной почтой быстрее, чем в Интернете. Это связано с тем, что разговор допускает нюансированное прямое взаимодействие. В отличие от кодирования, которое требует технической экспертизы, естественный язык является интуитивно понятным и широко доступным посредством ручного типирования или устного слова.
Достижения в области ИИ позволяют компьютерам понимать и обрабатывать человеческий язык, захватывая контент, контекст и намерения, чтобы генерировать соответствующие ответы. Перевод разговорного ввода в структурированные запросы AI служит эффективным интерфейсом для доступа к данным, соединяя потребности человека в сложных системах баз данных таким образом, чтобы соответствовать нашим моделям естественной связи.
LLM недостаточно
LLMS Excel при обработке человеческого языка, предоставляя ответы на основе шаблонов, изученных из наборов данных по обучению интернет-масштаба. Например, когда его спросили самый населенный город в Южной Калифорнии, LLM правильно реагирует «Лос -Анджелес», опираясь на укоренившиеся культурные знания, встроенные в ее глубокую нейронную сеть, а не искать необработанные данные. Тем не менее, LLMS колеблется с конкретными, управляемыми данными запросов.
Рассмотрим вопрос, спрашивающий, сколько людей живет в 30-минутной езде в час пик до порта Лос-Анджелеса. LLM может догадаться, но ему не хватает точных данных в реальном времени, необходимых для предоставления точного ответа. В тех случаях, когда жизнь людей находится на линии, точная информация имеет решающее значение.
В то время как LLMs понимают намерение, они требуют дополнительных источников данных для предоставления надежных, действенных ответов. Это ограничение подчеркивает необходимость в ИИ взаимодействовать с надежными системами данных, такими как SQL, для предоставления точных, специфичных для контекста ответов для сложных, реальных сценариев.
SQL в качестве уровня данных для AI
Чтобы предоставить точные, управляемые данными ответы для личных и предприятий, ИИ требует надежной бэкэнд-системы. Взаимодействие с разрозненными, нестандартными системами неэффективно и не имеет масштабируемости. Точно так же, полагаясь на ИИ, чтобы написать специальный код на таких языках, как C ++, Java, Python или Rust, для запроса неструктурированных данных невозможно и подвержены ошибкам. Нереляционные базы данных, такие как магазины ключей, могут поддерживать сортировку, соединение или агрегирование, но часто не хватает стандартизированной, выразительной структуры SQL, которая может препятствовать способности ИИ эффективно обрабатывать сложные запросы.
Базы данных SQL, широко принятые на предприятиях для управления большинством структурированных данных, предлагают декларативную стандартизированную архитектуру, которая упрощает местонахождение, фильтрацию и сочетание данных.
Тем не менее, научиться писать большие сложные запросы SQL не является тривиальным и требует инженеров несколько лет, чтобы освоить. Разрабатывая специализированные модели искусственного интеллекта, которые преуспевают в написании запросов SQL и разговора и понимания человеческого языка, мы создаем мост, который превосходит человеческие намерения с способностью создавать мелкозернистые и сложные запросы, чтобы соответствовать намерению пользователя.
В результате ИИ сможет легко создавать сложные запросы SQL, используя один четко определенный язык, который ИИ может освоить для доступа ко всем необходимым данным.
SQL будет объективно-реламентальным и расширяемым
Традиционные базы данных SQL, такие как MySQL, в первую очередь обрабатывают основные типы данных, включая целые числа, поплавки, даты и текст. Тем не менее, современные объектно-реляционные базы данных, такие как PostgreSQL, поддерживают расширяемые, контекстные типы данных, включая географические, изображения, график и данные временных рядов. Эта расширяемость позволяет SQL управлять различными типами данных, согласуясь с различными запросами, которые люди спрашивают интерфейсы ИИ.
Приспосабливая динамические типы данных, расширяемые системы SQL расширяют возможности ИИ для эффективного обработки и извлечения сложной, богатой контекстом информации. Таким образом, объектно-релетационные и расширяемые базы данных SQL Data имеют важное значение для обеспечения того, чтобы ИИ мог ответить на широкий спектр человеческих запросов, которые включают доступ к различным типам данных.
ИИ нужны распределенные системы
Традиционные базы данных SQL работали на отдельных системах с ограниченной мощностью обработки, как правило, от четырех до 200 ядер ЦП. Это не достаточно для удовлетворения требований современных баз данных, таких как запросы массовых наборов данных для приложений искусственного интеллекта, которые требуют тысячи ядер ЦП.
Масштаб, требуемая от сегодняшних возможностей обработки данных, находится за пределами емкости одного компьютера. Он нуждается в распределенных базах данных SQL, которые разумно разделяют и распространяют обработку данных и запросов по сети или ферме компьютеров. Эти системы помогают обеспечить масштабируемость, скорость и надежность, используя параллельную обработку для многочисленных узлов.
Для того, чтобы ИИ поставлял точные, точные ответы на сложные запросы, распределенные базы данных SQL обеспечат надежный, высокопроизводительный бэкэнд, необходимый для эффективной обработки растущих объемов данных в мире.
Элегантность SQL
Элегантность SQL заключается в его интеллектуальной чистоте, основанной на математических основаниях. Он появился в начале 1970 -х годов в исследовательской лаборатории IBM в Сан -Хосе, управляемой новаторской статьей доктора Эдгара Ф. Кодда 1970 года «Реляционная модель данных для крупных общих банков данных». Codd, математик, представил реляционную модель, используя математические принципы, такие как реляционная алгебра и реляционное исчисление кортежа для структуры данных в таблицах (отношения) с рядами (кортежи) и столбцами, обеспечивая целостность данных и эффективность запроса.
Его целью было упростить поиск данных, что сделало его доступным без сложного программирования. Предназначенный для непрограммистов, декларативный синтаксис SQL позволяет пользователям указать данные «что» для извлечения, а не «как», абстрагируя физическое хранилище. Стандартизированный ANSI/ISO в 1980 -х годах SQL стал универсальным языком для реляционных баз данных, что позволяет надежному, масштабируемому запросу в различных системах.
Соотношение — это таблица, структурированный набор данных с столбцами, определяющими атрибуты и строки в качестве кортежей, каждый из которых представляет экземпляр данных. Набор представляет собой набор уникальных элементов, формирующих основу теории наборов, которая лежит в основе операций SQL. Реляционная алгебра, формальная система манипулирования отношениями, определяет такие операции, как соединение (объединение таблиц на основе общих атрибутов), проекция и выбор, непосредственно переводятся в декларативный синтаксис SQL (например, Select, Join).
Блеск SQL наиболее очевиден в компоненте SQL Optimizer, который отделяет логический запрос намерения от физического выполнения. Используя планирование запросов на основе затрат, оптимизатор использует динамическое программирование и другие алгоритмы для оценки миллиардов потенциальных планов запросов, выбирая самую низкую стоимость опции в подразделе. Он выполняет логические преобразования (например, переписывание запросов для эффективности) и отображает их с помощью физических шаблонов доступа к данным, таким как индексные сканирования или хэш -соединения, обеспечивая надежную, масштабируемую производительность. Это математическое выравнивание делает SQL вне времени красивым.
AI-SQL: как арахисовое масло и желе
Будущее поиска информации сочетает в себе способность естественного языка ИИ с расширенными системами SQL для доступа к данным, переопределяя то, как люди получают доступ к крупнейшим и самым сложным наборам данных. AI генерирует точные запросы SQL с использованием знаний схемы, в то время как распределенные системы SQL, масштабируя тысячи ядер ЦП, обеспечивают скорость и надежность. Объектно-реляционная SQL с расширяемой поддержкой типа данных для географических, текстовых, изображений, видео и графических данных обрабатывает различные наборы данных.
Эта структура AI-SQL, объединяющая естественный язык, распределенная обработка и расширяемость типа данных,-это то, что нам нужно в современных цифровых средах.
Недавние десятилетия достигли больших успехов в инфраструктуре; Теперь пришло время создать приложения, которые используют максимальную пользу из этих новых инструментов. Решения VMware Tanzu ускоряют разработку и поставку приложений с помощью оптимизированных путей к производству, автоматизированным операциям платформы и улучшению затрат, производительности и безопасности. Узнайте больше последних из VMware Tanzu Trending Stories YouTube.com/thenewstack Tech, которые движутся быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Иван Новик возглавляет управление продуктом данных платформы данных в подразделении Tanzu в Broadcom, наблюдая за данными в реальном времени, потоковой передаче, базах данных OLTP и хранилищах данных/озерах. Ранее он возглавлял инновации Tanzu Greenplum более десяти лет, где он управлял своей эволюцией от версии 4 до … Подробнее от Ивана Новика