Instaclustr спонсировал этот пост.
Давние пользователи Kafka знакомы с вилкой на пресловутой дороге, поскольку их приложения и данные накапливаются, накапливаются и накапливаются. Хранение данных не бесплатно, и в конечном итоге момент истины наступает, когда вам нужно принять решение либо обслуживать все свои исторические данные, либо сохранить свои затраты на хранение.
Прибытие многоуровневого хранилища Кафки устраняет эту дилемму с третьим вариантом: почему не оба?
С многоуровневым хранилищем популярная платформа для потоковой передачи с открытым исходным кодом теперь позволяет автоматически разделить данные на два уровня: один, которая обеспечивает высокую производительность, сохраняя недавние и важные горячие данные локально, а другой-вмешивание исторических данных в недорогое хранилище облачных объектов.
Многоуровневое хранилище преобразует способ, которым организации могут нажимать на KAFKA в масштабе, обеспечивая новые варианты использования при упрощении операций и обеспечивая долгосрочную согласованность данных. Вот как это работает и почему это изменение игры для каждого развертывания кафки, жаждущих данных.
Сократить затраты при экономии данных о бизнесе
Многоуровневое хранилище Kafka сохраняет основную семантику и API платформы, позволяя существующим приложениям и их производителям и потребителям KAFKA функционировать без модификации. Архитектура функционирует как кеш записи. Первоначально данные приземляются на локальном хранилище, прежде чем асинхронно скопированы в удаленное хранилище после закрытия сегментов. Потребители плавно читают из локального или удаленного хранилища по мере необходимости, при необходимости, полностью абстрактная сложность.
По мере роста организаций их накопление данных ускоряется и в конечном итоге достигает точки, когда простое расширение хранения брокеров становится финансово неустойчивым. Хранение облачных объектов стоит доли высокопроизводительных SSD, что делает экономическое обоснование для многоуровневого хранилища, немедленно убедительного для финансовых заинтересованных сторон (другими словами, многоуровневое хранилище Kafka сделает ваш финансовый директор счастливым). Между тем, технические команды получают новые мощные возможности для исторического анализа и переработки данных, которые ранее были затратными.
Построение лучшей машины времени
В то время как Kafka всегда позволяла предприятиям «перемещаться во времени» через свои потоки данных, открывая критические идеи и возможности, высокая стоимость хранения исторических данных строго ограничивала объем этой функции до сих пор.
Многоуровневое хранилище Kafka делает расширенное время во времени в течение многих лет исторических данных экономически жизнеспособным, открывая трансформационные возможности. Теперь команды могут обучать модели машинного обучения (ML) на полных исторических наборах данных, а не на образцах, выполнять бесшовные миграции в новые системы раковины и выполнять всесторонний аудит соответствия во всех прошлых транзакциях.
Эта функциональность также помогает модернизировать методы разработки приложений. Инженерные команды могут обращаться к ошибкам, возвращаясь к точному состоянию до того, как они будут представлены, даже через несколько месяцев после этого. Приложения могут пройти тщательное A/B -тестирование, используя конвейеры параллельной обработки в отношении исторических данных.
Операции с изменением времени, такие как точные моделирования, если с историческими операционными данными, теперь стали практическими вариантами использования. Даже стратегии восстановления аварийного восстановления развиваются, поскольку организации заменяют дорогую горячую инфраструктуру дубликатов гораздо более доступным хранением данных о холодных данных, которое может быть быстро развернуто на новых кластерах Kafka, когда это необходимо.
Управление многоуровневой производительностью и правильной масштабной способностью
Многоуровневое хранение означает поддержание бесшовного высокопроизводительного доступа к критически важным данным. Тем не менее, несколько интеллектуальных корректировок могут оптимизировать производительность при доступе к историческим данным в хранении холодного облака.
Политики удержания должны быть микрокосмом вашей многоуровневой стратегии хранения, сохраняя часто доходные данные локально и с использованием удаленного хранилища для менее часто необходимых данных. Это удаленное копирование происходит асинхронно, что означает, что производители кафки будут функционировать так же, как всегда. Тем не менее, вы должны увеличить кластерный процессор и сетевые ресурсы примерно на 10%, чтобы лучше выполнить эти уровни.
Многоуровневое хранилище Kafka также меняет уравнение при планировании, сколько возможностей сделать доступным. Согласно контрольным данным NetApp Instaclustr, чтения из горячего локального хранилища часто в два или три раза быстрее, чем от удаленного облачного хранилища, с деградацией до 20x с небольшими размерами сегмента. Чтобы поддерживать правильную мощность, отдельные рабочие нагрузки и определите входную скорость вашего производителя, потребительские схемы и данные для хранения локально.
Рассматривая шаблоны доступа, а не общий объем, поможет в правильном размере локальной задержки. Размер темы, чтобы лучше всего служить параллельной обработке, необходимой для эффективности доступа к данным, хранящимся в облаке, учитывая, что разделы значительно влияют на производительность чтения. Увеличение разделов для тех тем, которые обработка исторических данных увеличит пропускную способность хранения в холодном хранении, позволяя большему количеству потребителей одновременно читать данные. Если вы хотите углубиться в размеры хранения KAFKA, мой коллега по Instaclustraust Пол Бребнер приобрел вас.
Эволюционный скачок Кафки вперед
Многоуровневое хранилище Kafka представляет собой первый шаг в эволюции Кафки в отношении невидимой инфраструктуры, освобождая команды разработчиков от проблем с управлением хранением, чтобы сосредоточиться на бизнес -логике и разработке приложений. Автоматизируя сложные решения, связанные с хранением и размещением данных, многоуровневое хранилище позволяет предприятиям концентрироваться на извлечении стоимости из их данных, а не на управлении базовой инфраструктурой.
Будущие выпуски Kafka, вероятно, будут продолжать эту траекторию, дополнительно автоматизируют операции при оптимизации для удовлетворения все более сложных требований организаций и быстрого масштабирования.
Instaclustr обеспечивает надежность в масштабе с помощью интегрированной платформы данных с открытым исходным кодом, таких как Apache Cassandra®, Apache Kafka®, Apache Sparktm, Elasticsearchtm, Redistm, Apache Zookeepertm и Postgresql®. Узнайте больше последних из Instaclustr Trending Stories YouTube.com/ThenewStack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Анил Инамдар является глобальным руководителем отдела данных в NetApp Instaclustr, которая предоставляет управляемую платформу вокруг технологий данных с открытым исходным кодом, включая Cassandra, Kafka, Postgres, Clickhouse и Opensearch. Анил имеет более 20 лет опыта работы в ролях данных и аналитики …. Подробнее от Anil Inamdar