Гидроликс спонсировал этот пост.
Когда дело доходит до хранения данных для журналов, там холодно — по крайней мере для предприятий, использующих многоуровневые решения для снижения затрат. Многоуровневые системы хранения обычно включают в себя некоторые вариации горячих, теплых, холодных и замороженных уровней для управления данными.
Но данные обычно не остаются горячими в течение очень долгого времени, особенно для предприятий, которые принимают терабайты данных журнала каждый день. Это быстро перенесено на холод и, в конечном итоге, замороженное ярус, где в лучшем случае неудобно регидратировать, а в худшем случае это становится темным данным — дорогостоящим источником утраченных пониманий и потенциальных рисков безопасности.
Замороженное хранилище или различные методы отброса данных (таких как снижение) могут показаться единственными решениями, когда объем данных журнала продолжает расти и когда затраты на небесное стремление. Но этот образ мышления устарел и основан на использовании плотно связанного, дорогого оборудования (например, SSD), чтобы сохранить данные для запросов.
Настоящей проблемой является базовая архитектура хранения, которые не предназначены для приема, хранения и запроса высоких объемов экономически эффективного затрат на данные журнала. Восстановление устаревших систем с нуля является дорогостоящим и разрушительным, поэтому как высокие затраты, так и компромиссы передаются клиентам.
В последние годы новый подход, который максимизирует производительность хранения объектов, обеспечивает гораздо лучшую альтернативу. Теперь для предприятий можно использовать решения, которые построены на хранении объектов, чтобы сохранить все свои данные горячими для аналитики в реальном времени, оставаясь экономически эффективным.
Некоторые из самых последних новостей в этом пространстве — это объявление таблиц AWS S3, в которых используется айсберг Apache для разделения и оптимизации хранения объектов. Такие инструменты, как айсберг, предоставляют обертки вокруг хранения объектов, что значительно улучшило производительность озеров данных. Между тем, такие решения, как гидроликс, обеспечивают как в режиме реального времени, так и долгосрочную историческую аналитику данных журнала, максимизируя производительность хранения объектов-все это без необходимости создавать решение с нуля с использованием таких инструментов, как айсберг.
С этими подходами вам больше не нужно выбирать между тем, чтобы ваши данные были горячими и снижением затрат. Если ваш бизнес ставит под угрозу доступ к данным, чтобы сократить расходы, вероятно, пришло время переосмыслить ваше решение для хранения.
Давайте рассмотрим некоторые проблемы с многоуровневым хранилищем, преимуществами поддержания всех данных в горячем виде и того, как современные решения для хранения данных максимизируют производительность хранения объектов, чтобы обеспечить экономически эффективную производительность запросов с низкой задержкой для петабайт данных, которые могут охватывать годы Полем
Проблемы с многоуровневым хранением
Замороженное хранилище может сократить расходы по сравнению с тесно связанным, дорогостоящим горячим хранилищем. Вот где начинаются преимущества замороженного конца хранения и недостатки. Замороженное хранилище неудобно для регидратации, поэтому оно редко запрашивается и быстро становится темным. Он намного медленнее, чем горячее хранилище, недоступно для прогонов машинного обучения и удивительно дорого в целом-главным образом потому, что их, как правило, так много, и это обеспечивает столь небольшую долгосрочную ценность. В некоторых случаях трубопроводы и реплики данных необходимы для перемещения данных между уровнями, что приводит к дополнительной сложности и эксплуатационной накладной информации.
В результате многоуровневая парадигма данных замораживает команды в устаревшем, унаследованном подходе, где данные журнала ценны только для краткосрочных оперативных пониманий, таких как наблюдаемость. С этой точки зрения, только последние несколько недель передачи данных для высокопроизводительной аналитики, а единственное оставшееся значение данных журнала-для целей соблюдения и безопасности.
Тем не менее, это противоречит подходу, который предпринимают многие дальновидные предприятия для федерации и демократизируют доступ к данным, предоставляя эти данные для команд и аналитиков в используемых им инструментах. Это включает в себя не только операции, но и бизнес -аналитику (BI), ученых данных, кибербезопасность и команды, разрабатывающие модели машинного обучения.
Преимущества долгосрочного горячего хранения
Устранение высоких затрат, которые традиционно стоят с горячим хранилищем, предприятия могут разблокировать широкий спектр преимуществ, и они простираются далеко за пределы тех, которые перечислены в приведенных выше случаях использования. В отличие от замороженного хранилища, после того, как рассмотрение затрат исчезнет, существует только рост, чтобы держать все данные горячими. Полное горячее хранилище также предоставляет следующие преимущества:
- Способность сравнивать текущие и исторические данные: С многоуровневым хранилищем операционные команды, как правило, имеют представление только о нескольких недель или не более нескольких месяцев данных. Но с долгосрочными горячими данными можно сравнить данные в реальном времени с данными на прошлой неделе, в прошлом месяце или даже в прошлом году. Гораздо проще отслеживать циклические события, поведение конкретных пользователей (таких как вредоносные актеры) и понимать закономерности и тенденции, которые вы не сможете раскрыть иначе. Для предприятий, использующих замороженное хранилище, запросы, которые включают исторические данные, обычно должны быть переигничивались и будут работать гораздо медленнее. Что еще хуже, запросы, которые пройдут несколько уровней хранения, будут узкими местами, а затем теряются преимущества горячего хранилища.
- Проще говоря, управление данными: Сохраняя все данные горячими, нет необходимости управлять несколькими уровнями данных, резервное копирование данных, поскольку они перемещаются между уровнями или имеют дело с потенциально сложными трубопроводами для перемещения данных. И вы также сможете устранить трудные решения об управлении данными, например, как долго каждый вид данных должен проживаться на каждом уровне до их перемещения.
- Повышенная способность федерации и демократизации данных в организации: Долгосрочное горячее хранилище может принести пользу предприятиям, которые стремятся демократизировать свои данные журнала, и сделать его доступным для команд, выходящих за рамки деятельности.
- Выявление темных данных: Поскольку замороженное хранилище неудобно для регидрата, это часто является значительным источником темных данных. Сохраняя эти данные горячими, это гораздо меньше склонна темнеть. Это может помочь смягчить риски, которые поставляются с темными данными, такими как вероятность того, что недоступные данные могут скрывать важные доказательства о злонамеренных атаках и нарушениях. Это также приносит потенциальную ценность для данных, которые иначе не будут иметь их.
Разблокировка ML, кибербезопасность и варианты использования BI
Помимо преимуществ, существует много случаев использования для долгосрочных, исторических горячих данных, которые гораздо сложнее или даже невозможно, с замороженным хранением. Следующие три варианта использования-в области кибербезопасности, машинного обучения и бизнес-аналитики-являются лишь несколькими примерами важности долгосрочного удержания горячих данных.
- Угроза охота: Среднее нарушение занимает 272 дня, чтобы обнаружить, что находится за пределами окна хранения горячих данных для многих платформ. На самом деле, вредоносные актеры часто используют «низкий и медленный» подход, что затрудняет обнаружение подозрительных закономерности и предотвращение вторжения от серьезных нарушений. Когда данные быстро перемещаются в замороженное хранилище, становится невозможным обнаружить закономерности, которые происходят в течение нескольких месяцев или даже лет. Вместо этого криминалистический анализ происходит только после того, как произошло нарушение и нанесен ущерб.
- Модели обучения машинного машинного обучения: Почти все говорят о использовании силы ИИ, но многие предприятия все еще пытаются выяснить, что это значит. Одной из проблем является создание высококачественных наборов данных, чтобы гарантировать, что модели являются точными. Данные журнала и систем могут обеспечить высокие наборы данных высокого уровня, для вариантов использования, таких как обнаружение аномалий и планирование мощности. Но замороженные данные создают блокаторы для доступа, увеличивая время и усилия, необходимые для обучения. В конечном счете, модели машинного обучения должны работать с «горячими» наборами данных — любые данные, которые не соответствуют этим критериям, могут потенциально ограничить эффективность модели.
- Би и наука о данных: Журналы предоставляют гораздо больше, чем просто запись о том, как выполняются ваши приложения; Они обычно включают подробную информацию о том, как пользователи взаимодействуют с вашим брендом, продуктами и сайтами. BI и научные группы BI и Data могут донести эти данные для понимания, которые могут помочь разработке продуктов, планированию запасов, маркетинговым кампаниям и размещению рекламы. Но эти идеи доступны только в том случае, если команды имеют полный доступ к наборам данных, а не неполные данные, охватывающие всего несколько недель или месяцев.
С долгосрочными, экономически эффективными горячими данными возникает вопрос: «Что мы можем сделать, чтобы максимизировать значение этих данных?» Вместо того, чтобы «Как долго я могу держать данные доступными без сбежавших затрат?»
Заново изобретение горячего хранилища для аналитики в режиме реального времени
Все эти преимущества возможны только в том случае, если хранилище объекта достаточно эффективно для аналитики в реальном времени. Но традиционно, магазины объектов не были правильным подходом для запросов с низкой задержкой, необходимыми в режиме реального времени. Распределенный характер хранения объектов делает его бесконечно масштабируемым и чрезвычайно экономически эффективным, но это также означает, что данные физически рассеиваются, а не тесно связаны с компонентами запроса, что приводит к более высокой задержке. И чаще встречается хранение объектов, используемые для холодных или замороженных данных, а не горячих.
Чтобы максимизировать производительность хранения объектов, решения строятся вокруг следующих основных концепций:
- Параллелизм: Хранилище объекта, такие как AWS S3 и GCP Cloud Storage, позволяют нескольким параллельным соединениям с хранением объектов, поэтому решения с использованием таких систем, как Kubernetes, могли одновременно записывать и считывать данные.
- Минимизация объема данных, которые необходимо пройти: Такие методы, как разделение, минимизируют объем данных, которые необходимо пройти. Например, одна общая стратегия разделения — это временная метка. Затем, когда пользователь делает съемный запрос, все разделы, которые не включают в себя диапазон временных метров, обрезаны из рассмотрения.
- Минимизация объема данных, которые необходимо перенести через распределенные системы: Такие методы, как сжатие высокой плотности и отжимание предиката, резко уменьшает объем данных, которые необходимо перенести через HTTP.
При правильном решении можно уменьшить «время до стекла», включая приема данных, преобразование и запросы, до считанного срока секунд. Например, при гидролике типичное время до стекла составляет менее 10 секунд, даже если предприятие принимает миллионы линий бревен в секунду.
Хотя это не истинная задержка в реальном времени для порядка миллисекундов, многие случаи использования в реальном времени, такие как аналитика, не требуют миллисекундной задержки. Согласно определению аналитики Gartner в реальном времени, «для некоторых вариантов использования в реальном времени просто означает, что аналитика завершается в течение нескольких секунд или минут после прибытия новых данных». В случае наблюдаемости, бизнес -аналитики и многих вариантов использования кибербезопасности, чтобы назвать некоторые из них, задержка в диапазоне секунд позволяет операциям и другим командам быстро найти и решать проблемы и раскрывать более глубокое понимание их данных.
Хранение объектов не подходит для вариантов использования, которые требуют истинной миллисекундной задержки, но в то же время, решения, которые полагаются на хранилища в памяти или дорогое, тесно связанное оборудование, больше не подходят для аналитики больших объемов данных. Как всегда, важно использовать правильный инструмент для работы. И когда дело доходит до приема, хранения и анализа больших объемов данных журнала, пришло время использовать решения, основанные на хранении объектов, вместо многоуровневого хранилища, которые оставляют ваши данные на холоде.
Узнайте, как гидроликс может помочь вам сохранить больше данных дольше и более экономически эффективно, максимизируя производительность дезаагрегированного хранения объектов.
Озеро потоковой передачи гидроликс обеспечивает наиболее быстро растущие продукты наблюдения и безопасность отрасли, трансформируя экономику управления высокой кардинальностью, данные журнала высокой размерности. Узнайте больше последних из Hydrolix Trending Stories YouTube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Франц Кнупфер является директором по контенту и исследованиям в Hydrolix, озеро потокового данного данных для журналов и данных о событиях. До Hydrolix он преподавал и был директором учебной программы в кодовой школе, а также работал в наблюдении … Подробнее от Franz Knupfer