Поставщик инфраструктуры данных dbt Labs недавно выпустил MetricFlow с открытым исходным кодом, инструмент генерации SQL, который усиливает семантический уровень dbt посредством лицензии Apache 2.0. Последствия этого развития охватывают самые дальние уголки экосистемы данных.
Он подтверждает приверженность dbt Labs инициативе Open Semantic Interchange (OSI) — инициативе, возглавляемой такими единомышленниками, как Snowflake, Salesforce, Atlan и Alation, по созданию стандартов обмена данными между платформами и инструментами.
Часть открытого исходного кода MetricFlow включает в себя предоставление уровня метаданных на основе JSON, который обеспечивает универсальную схему, независимую от механизма определений и метрик. Таким образом, даже без внедрения MetricFlow сообщество открытого исходного кода все равно может использовать этот семантический уровень в качестве общего обмена для понимания данных между инструментами и поставщиками. Организации также могут продолжать получать к нему доступ через MetricFlow.
Открытость этого уровня метаданных вполне может стать ключом к долгожданному взаимодействию между системами данных, которого многие жаждали, но немногим удалось достичь. Основной движущей силой каждого из этих разработок является необходимость обеспечить прозрачное доверие к статистическим приложениям ИИ, особенно к тем, которые используют динамические агенты, а также успех нового протокола MCP для агентов, взаимодействующих с инструментами.
«Есть два подхода к семантическим уровням», — сказал Райан Сигар, директор по работе с клиентами dbt Labs. «Старый способ позволяет вам определить что-то и дает вам ответ, когда вы об этом спрашиваете, но не обеспечивает отслеживаемость под капотом, чтобы понять больше, например, пути JOIN, откуда это пришло, является ли оно доверенным или нет, и было ли оно проверено».
«Вы не можете себе этого позволить в эпоху искусственного интеллекта, потому что, когда вы используете LLM [large language model]а ты про МСР [Model Context Protocol]чтобы получить более точные ответы, нужно не просто дать поверхностный ответ о том, что означает доход, и уйти. Вы должны иметь возможность предоставить моделям четко определенный и проверенный след метаданных».
Преобразование MCP
MetricFlow — и его уровень метаданных на основе JSON — могут служить отправной точкой для предоставления такой детальной информации агентам, языковым моделям, лежащим в их основе, а также людям, контролирующим и проверяющим этих агентов. Хотя фактические темпы внедрения MetricFlow с тех пор, как dbt Labs открыла исходный код этого инструмента, еще не подвергались тщательному изучению, возможность его влияния на эволюцию MCP вполне реальна. Даже если сообщество открытого исходного кода примет только свою спецификацию универсальной схемы без остальной части MetricFlow, это потенциально может изменить способ функционирования самого MCP.
В лучшем случае он может превратить протокол из конечной точки в отправную точку для понимания и доверия, необходимых предприятиям для получения желаемых результатов от развертывания агентов. Согласно этому идеалу, «MCP — это не просто конечная точка, которая дает вам то, что вы хотите, а затем уже готово», — прокомментировал Сигар. «Это путь к стандартизации того, как любая модель думает о взаимодействии с вашими данными и, что более важно, с вашими метаданными».
Спецификация универсальной схемы
Для реализации этого идеала требуется нечто большее, чем просто MetricFlow или его семантический уровень на основе JSON, который позволяет инструментам — в том числе для бизнес-аналитики (BI), искусственного интеллекта, хранилищ данных, баз данных и многого другого — обмениваться метриками, терминологией и определениями друг с другом. Требуется такой инструмент преобразования, как dbt, чтобы облегчить определение происхождения данных для ответов на вопросы, а также то, что было сделано с этими данными, чтобы гарантировать, что это правильные данные для использования в конкретном приложении или запросе. Однако спецификация универсальной схемы MetricFlow является отправной точкой для инструментов разных поставщиков, будь то Databricks и Snowflake, Power BI и Tableau или что-то еще, для эффективного взаимодействия друг с другом.
Впоследствии, независимо от того, где были созданы метрики, пользователи могут вводить их в эту глобальную схему и при этом понимать их значение в экосистемах поставщиков. По словам Сегара, эта глобальная схема JSON или стек метаданных функционирует как «Розеттский камень, который находится посередине. Это общая основа, поэтому компаниям больше не нужно напрямую интегрироваться друг с другом. Они могут интегрировать и принять эту спецификацию метаданных, которая является общей для всех нас, и это то, что позволит им читать и анализировать». Если пользователи выбирают доступ к этому стеку метаданных независимо от остальной части MetricFlow, они могут полагаться на метрики, которые они используют, например, в инструменте BI в течение многих лет, и при этом другие инструменты и продукты понимают лежащую в основе семантику.
Определение метрик
Поскольку MetricFlow теперь доступен сообществу разработчиков программного обеспечения с открытым исходным кодом, с его помощью так же легко создавать метрики и соответствующие им определения. MetricFlow эффективно переводит эти определения в SQL со всеми его универсальными преимуществами в пространстве данных.
Например: «Вы можете определить определение валовой прибыли, и MetricFlow компилирует это определение в SQL», — объяснил Сегар. «Этот SQL предназначен не только для того, чтобы сказать: «Вы запросили валовую прибыль, и вот ответ». Он понимает, что если говорить о валовой прибыли, то всплывают календари. Итак, финансовый календарь, как вы его соблюдаете и какова его логика?» Естественно, организации по-прежнему могут воспользоваться глобальным стандартом метаданных, который является неотъемлемой частью MetricFlow, если захотят, в дополнение к возможности доступа к нему без остального предложения MetricFlow.
Совместимость
Множество вариантов использования, связанных с взаимодействием, которое становится возможным при реализации схемы JSON MetricFlow, бесчисленно. Тем не менее, наиболее актуальной задачей на данный момент, по-видимому, является повышение достоверности, надежности и точности статистических развертываний ИИ. Эти преимущества, по-видимому, удваиваются при их применении к развертыванию агентного ИИ, особенно если учесть, что многие из них используют LLM, которые организации не обучили и не отладили.
«В этом мире искусственного интеллекта, где все беспокоятся о показателях точности и о том, как модель получила ответ, вам нужно, чтобы это было объяснимо», — сказал Сигар. «Если вы хотите доверия, вам нужна прозрачность. Прозрачность должна быть не просто удобочитаемой для человека. Она должна быть воспроизводимой и переносимой, чтобы ИИ мог взаимодействовать с ней, понимать и сканировать, как определяются показатели».
ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Джелани Харпер работала аналитиком, руководителем исследований, консультантом по информационным технологиям и журналистом более 10 лет. За это время он помог множеству поставщиков и публикаций в области управления данными разработать стратегию, разработать, составить и разместить… Подробнее от Джелани Харпер