Новая экономика инфраструктуры данных с открытым исходным кодом

Instaclustr спонсировал этот пост.

Спросите любого архитектора данных, чего всего пять лет назад казалось невозможным экономически эффективно достичь, и вы услышите о системах обнаружения мошенничества в реальном времени, обрабатывающих миллионы транзакций в секунду, поисковых системах на базе искусственного интеллекта, которые понимают контекст петабайтов неструктурированных данных, и платформах распределенной аналитики, которые уважают суверенитет данных, обеспечивая при этом глобальное понимание.

Это уже не амбициозные варианты использования, а производственные рабочие нагрузки, работающие — и работающие хорошо — на 100% инфраструктуре данных с открытым исходным кодом.

Разница между этими реализациями и устаревшими стратегиями обработки данных во многом сводится к правильному выбору архитектуры, которая может развиваться вместе с вашими приложениями. Если традиционные подходы рассматривали инфраструктуру данных как центр затрат, который необходимо минимизировать, сегодня более разумным направлением является создание систем, которые одновременно активно оптимизируют производительность, затраты и эксплуатационную гибкость.

Технологии инфраструктуры данных с открытым исходным кодом имеют уникальные возможности для реализации этих интеллектуальных архитектур, предлагая глубину настройки и инновации сообщества, с которыми просто не могут сравниться проприетарные системы.

Производственные задачи, которые пять лет назад казались невозможными, теперь стали достижимы благодаря конкретным архитектурным инновациям, которые распространились в экосистеме с открытым исходным кодом.

Многоуровневое хранилище меняет экономику данных в реальном времени

Apache Kafka долгое время был основой корпоративных конвейеров данных в реальном времени, но его модель хранения создала дорогостоящий парадокс. Чтобы поддерживать низкую задержку при обработке в реальном времени, организациям приходилось хранить все данные на высокопроизводительных уровнях хранения — даже подавляющее большинство записей, к которым редко можно было бы получить доступ снова. Системе обнаружения мошенничества может потребоваться миллисекундный доступ к последнему часу транзакций, но она может допустить более высокую задержку для анализа исторических закономерностей. Однако оба набора данных находились на одном и том же дорогостоящем уровне хранения.

Многоуровневое хранилище Kafka фундаментально меняет эту экономику. Архитектура разделяет хранилище журналов Kafka на «горячий» и «холодный» уровни, автоматически управляя размещением данных на основе шаблонов доступа. Недавно созданные данные остаются в локальном хранилище с малой задержкой, а более старые сегменты переносятся в объектное хранилище, такое как S3. Важнейшим нововведением является то, что потребители Kafka по-прежнему могут прозрачно получать доступ к данным холодного уровня через тот же API.

Доступ на горячем уровне поддерживает задержку p99 менее 10 миллисекунд, тогда как получение на холодном уровне обычно добавляет от 50 до 100 мс. В большинстве случаев использования в режиме реального времени, когда недавние данные определяют решения, а исторические данные поддерживают периодический анализ, эти компромиссы обеспечивают сокращение затрат на хранение на 70–80 % без ущерба для основных функций. Розничная платформа, обрабатывающая данные о потоках кликов, теперь может хранить месяцы исторических событий для обучения модели машинного обучения (ML) с минимальными затратами, тогда как раньше они могли архивировать или удалять эти данные в течение нескольких недель.

Поиск на основе искусственного интеллекта делает неструктурированные данные полезными

Корпоративный поиск постоянно разочаровывает. Традиционные системы, основанные на ключевых словах, возвращают слишком много нерелевантных результатов, в то время как расширенные параметры требуют специализированных языков запросов, которые большинство пользователей никогда не изучают. Модели векторного поиска и внедрения наконец меняют это уравнение.

OpenSearch, PostgreSQL с pgvector и Apache Cassandra 5.0 с возможностями векторного поиска теперь обеспечивают семантический поиск в любом масштабе. Документы и запросы кодируются как многомерные векторы с использованием языковых моделей, при этом сходство измеряется в векторном пространстве, а не через перекрытие ключевых слов. Когда представитель службы поддержки клиентов ищет «жалобы о задержке доставки», система понимает семантическую связь с записями, в которых упоминаются «задержка доставки» или «заказ не прибыл», не требуя точного совпадения фраз.

Структуры индексов, такие как иерархический навигационный маленький мир (HNSW), позволяют осуществлять приблизительный поиск ближайших соседей, который возвращает результаты за миллисекунды, даже среди миллиардов векторов. Для предприятий с существующими развертываниями OpenSearch или PostgreSQL путь к поиску на основе искусственного интеллекта не требует полной замены платформы. Добавление векторных возможностей в существующие системы позволяет группам итеративно улучшать функциональность поиска, доказывая свою ценность, прежде чем приступить к полной миграции.

Более того, оперативное воздействие выходит за рамки полей поиска. Векторные внедрения позволяют использовать механизмы рекомендаций, которые понимают взаимосвязи контента, системы обнаружения аномалий, которые выявляют необычные шаблоны в журналах, и чат-ботов, которые могут анализировать корпоративные базы знаний.

ClickHouse повышает производительность операционной аналитики

Хранилища данных традиционно представляют собой системы, ориентированные на пакетную обработку, которые принимают данные через запланированные интервалы и оптимизированы для сложных аналитических запросов к наборам исторических данных. ClickHouse и аналогичные столбчатые базы данных с открытым исходным кодом стирают границу между операционными и аналитическими рабочими нагрузками, позволяя выполнять запросы за доли секунды к миллиардам строк последних данных.

ClickHouse достигает своей производительности за счет агрессивного сжатия и столбчатого хранения, оптимизированного для аналитических шаблонов доступа. В то время как в строковых базах данных все поля записи хранятся последовательно, в столбчатых системах каждый столбец хранится отдельно. Когда аналитическому запросу необходимо агрегировать несколько столбцов из миллионов строк, с диска считываются только соответствующие столбцы. В сочетании со сжатием на основе кодеков, обеспечивающим степень сжатия в 10 раз или выше, запросы часто могут полностью работать в памяти даже с большими наборами данных.

Миграция с традиционных хранилищ данных требует переосмысления моделирования данных. ClickHouse предпочитает денормализованные широкие таблицы нормализованным схемам с объединениями. Для организаций с развитыми развертываниями Snowflake или Redshift решение не обязательно является заменой, а скорее идентифицирует рабочие нагрузки, где производительность в реальном времени имеет большее значение, чем функции существующих платформ.

Гибридная инфраструктура наконец-то работает

Устаревшие локальные системы представляют собой огромные инвестиции, от которых предприятия не могут просто отказаться. Однако этим системам все чаще необходимо взаимодействовать с современными облачными сервисами для аналитики, машинного обучения и обработки в реальном времени.

Kubernetes стал уровнем интеграции, обеспечивающим гибридное развертывание. Первоначально Kubernetes был разработан для оркестрации микросервисов, но теперь он поддерживает рабочие нагрузки с отслеживанием состояния, включая базы данных и очереди сообщений. Он абстрагирует различия в инфраструктуре, позволяя приложениям переносимо развертываться в локальных центрах обработки данных и общедоступных облаках.

Интеграция плоскости данных имеет такое же значение, как и плоскость управления. Измените инструменты сбора данных, такие как Debezium, которые преобразуют базы данных устаревших систем в темы Kafka, делая данные десятилетней давности доступными для обработки в реальном времени без модификации проверенных в боевых условиях производственных баз данных.

Управляемые услуги с открытым исходным кодом предоставляют операционные преимущества предприятиям, создающим гибридные архитектуры. Надежная работа Kafka, ClickHouse или OpenSearch требует глубокого опыта работы в этих конкретных технологиях. Управляемые услуги позволяют организациям сосредоточиться на шаблонах интеграции и моделях данных, а не на настройке кластера и обновлении версий.

Реализация интеллектуальной инфраструктуры

Тенденции, изменяющие корпоративную инфраструктуру данных, имеют общую нить, выходящую за рамки их основ с открытым исходным кодом. Все они представляют собой архитектурные решения, которые оптимизируют одновременно несколько измерений, а не рассматривают производительность, стоимость и гибкость как конкурирующие проблемы.

Для технических руководителей, оценивающих эти технологии, вопрос заключается не в том, принимать ли их, а в том, как определить последовательность внедрения. Использование многоуровневого хранилища для существующих развертываний Kafka обеспечивает немедленную экономию средств с минимальным риском. Добавление векторного поиска в текущие базы данных позволяет использовать функции искусственного интеллекта без миграции платформы. Ключевым моментом является определение того, какие возможности устраняют наиболее острые ограничения сегодня и со временем создают более интеллектуальную архитектуру.

100% открытый исходный код этих технологий обеспечивает необычайную гибкость в путях внедрения. Вы можете поэкспериментировать с ClickHouse на подмножестве аналитических рабочих нагрузок, прежде чем приступать к полной миграции. Я не говорю, что вам следует развертывать все одновременно, но низкий барьер для экспериментирования означает, что стоимость проверки этих подходов в вашем конкретном контексте чрезвычайно низка.

Глядя на 2026 год, который каким-то образом уже на горизонте, инфраструктурные тенденции, ускоряющиеся сейчас, будут все больше становиться базовыми ожиданиями. Сегодня предприятия, быстро внедряющие интеллектуальную инфраструктуру данных, закладывают основу для того, что будет дальше. Те, кто будет ждать, окажутся не только отстающими от текущих возможностей, но и неподготовленными к следующей волне требований, основанных на этих основах.

Instaclustr обеспечивает надежность в любом масштабе благодаря интегрированной платформе данных с технологиями с открытым исходным кодом, такими как Apache Cassandra®, Apache Kafka®, Apache SparkTM, ElasticsearchTM, RedisTM, Apache ZooKeeperTM и PostgreSQL®. Узнайте больше Последние новости от Instaclustr ТЕНДЕНЦИОННЫЕ ИСТОРИИ YOUTUBE.COM/THENEWSTACK Технологии развиваются быстро, не пропустите ни одной серии. Подпишитесь на наш канал YouTube, чтобы смотреть все наши подкасты, интервью, демонстрации и многое другое. ПОДПИСАТЬСЯ Группа, созданная в Sketch. Анил Инамдар — глобальный руководитель службы обработки данных в компании NetApp Instaclustr, которая предоставляет управляемую платформу на базе технологий данных с открытым исходным кодом, включая Cassandra, Kafka, Postgres, ClickHouse и OpenSearch. Анил имеет более чем 20-летний опыт работы в сфере данных и аналитики…. Подробнее от Анила Инамдара

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *