Recce считает, что обзоры данных станут такими же важными, как и обзоры кода

Данные стали жизненной силой многих предприятий, и такие инструменты, как DBT и другие, преобразовали, как эти данные управляются и потребляются, в том числе с помощью II Systems. Но Кл Као, основатель и генеральный директор Recce, утверждает, что, хотя многие из этих инструментов облегчают создание трубопроводов данных и программно управлять данными, не хватает современных инструментов для оценки влияния изменений кода вверх по течению на данные нижестоящих направлений. Као считает, что в ближайшем будущем обзоры данных станут такими же важными, как обзоры кода, и компания рассматривает, как это может применять эти же идеи к выводу крупных языковых моделей (LLM) и агентов ИИ.

Као, который также стал соучредителем предшественника GIT SVK, запустил проект с открытым исходным кодом в 2023 году. При предварительном финансировании 4 миллиона долларов во главе с Heavybit (с участием Vertex Ventures US, Hive Ventures и ряд инвесторов ангелов), компания в настоящее время запускает Cracce Cloud в частную бета. Между тем, проект Recce Open Source Today достиг версии 1.0.

Согласованность данных с автоматическим количеством строк и проверки схемы.

«Когда мы начали этот проект, мы решили, что в рабочем процессе CI/CD есть интересный разрыв», — сказал Као, когда я спросил его о происхождении проекта. «В программном обеспечении-традиционном программном обеспечении-у вас есть довольно четкие критерии того, как должно вести себя программное обеспечение. Но для систем данных, большую часть времени, у вас не очень простые тесты».

Разработчики могут проверить, находится ли значение в пределах ожидаемой границы — и некоторые из существующих инструментов уже делают это — но Као утверждает, что очень трудно написать исчерпывающие тесты для этих систем. И как бы вы узнали, является ли какое -либо отклонение от среды развития в производственную среду или нет, например? Любое из этих изменений может иметь непредвиденные последствия и привести к неисправным показателям и дорогостоящим ошибкам.

Что происходит сегодня, так это то, что разработчики вносят изменения в производственные системы, но даже с дополнительными тестами они не узнают, правильными ли результаты или нет. Добавьте в смесь модели искусственного интеллекта с их вероятностными результатами, и становится еще более важным иметь правильный инструмент, чтобы гарантировать, что эти результаты являются правильными.

Lineage Diff в приложении Recce помогает вам визуализировать область воздействия изменений модели данных DBT.

«При первоначальном анализе мы можем очень точно определить, где происходят потенциальные изменения. И затем, чтобы добавить измерение риска или насколько важно, пользователь может выборочно добавить определенные проверки, проверяет по сравнению с производством. Они изменились значимым образом? Или вы не ожидали изменения, и на самом деле это не так?»

Поскольку многие из этих трубопроводов обрабатывают огромные объемы данных, пользователи Recce, как правило, только обрабатывают данные, которые они создают, чтобы проверить проблемы или создать ограниченный период обратной связи.

Очевидно, что существует спрос на такой инструмент, а версия с открытым исходным кодом, которая сейчас имеет более 3500 загрузок в неделю на Github. Recce говорит, что пользователи инструмента варьируются от Philadelphia Inquirer до телекоммуникационных компаний, стартапов медицинских технологий и даже правительственных учреждений в Бразилии и Австралии.

Возможно, не удивительно, что Recce также готовит свои усилия по монетизации этой услуги. Здесь он следит за стандартной игрой, запустив размещенную версию своего сервиса под облачным прозвищем Recce. Эта новая служба включает в себя ряд функций сотрудничества, таких как обмен контекстами данных в разных командах с различиями в линии, пользовательские результаты запроса и включенные контрольные списки. Recce Cloud также включает интеграцию с GitHub, чтобы гарантировать, что код объединяется только тогда, когда все проверки проверки данных были утверждены.

«Data Pipelines-это новый секретный соус для каждого здания компании с ИИ, который позволяет командам создавать и улучшить высококачественные данные обучения из своего собственного ИС»,-сказал генеральный партнер Heavybit и The DevOps Grailblazer Джесси Роббинс, который присоединяется к совету Recce. «Recce предоставляет основной инструментарий для разблокировки полной стоимости своих данных с помощью итерации, уточнения и мониторинга, смягчая риск ошибок и коррупции. Heavybit взволнован, чтобы поддержать их по мере того, как они выращивают экосистему для проверки трубопровода данных в эпоху AI в рамках нашей постоянной миссии 10+ лет: вывод на рынок критической инфраструктуры на рынок».

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Прежде чем присоединиться к новому стеку в качестве старшего редактора для ИИ, Фредерик был редактором предприятия в TechCrunch, где он освещал все, от роста облака и самых ранних дней Kubernetes до появления квантовых вычислений …. Подробнее от Frederic Lardinois

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *