Озера данных стали важным компонентом для наблюдения. Это связано с тем, что они могут в идеале собирать и интегрировать данные в различные формы и структуры, которые, если они обрабатываются должным образом, могут использоваться для получения аналитической информации, улучшения бизнес -операций и улучшения возможностей, которые предлагают применение наблюдения.
Что такое озеро данных? Gartner предлагает достаточно полное определение:
Озеро данных — это семантически гибкое хранилище данных в сочетании с одной или несколькими возможностями обработки. Большинство активов данных копируются из разнообразных предприятий и хранятся в их необработанных и разнообразных форматах, чтобы их можно было уточнить и многократно перепрофировать для множественных вариантов использования. В идеале озеро данных будет хранить и обрабатывать данные любой структуры, задержки или контейнера, таких как файлы, документы, наборы результатов, таблицы, форматы, двоичные большие объекты (Blobs) и сообщения.
Трудно спорить с преимуществами, которые озеро данных может предложить для наблюдения. Единый репозиторий, в котором размещаются полезные данные в качестве основы для улучшения анализа данных, будь то для бизнес -операций, DevOps или Platform Engineering.
Тем не менее, создание и управление надлежащим озером данных для наблюдения требует значительной поддержки ноу-хау и инфраструктуры, и для каждой организации нет необходимости. В отличие от Kubernetes, который жизнеспособен только за пределами определенного порога масштаба, озеро данных для наблюдения может не принести пользы небольшой организации, которая по -прежнему зависит в основном на облаке для своих данных или операций и может не иметь бюджета для реализации озера данных.
Но будущее может привести к более интересным событиям и изменениям в этой динамике по мере развития технологии. Поставщики наблюдения также изучают возможность предложения платформ управления данными, потенциально изменяя то, как предприятия подходят к анализу данных и эксплуатационной информации.
Преимущества озеров данных в наблюдаемости
Data Lakes обеспечивают сбор данных и расширенную аналитику, а также дополняют традиционные хранилища данных. Например, массовый репозиторий исходных данных в озере данных поддерживает широкое, гибкое и непредвзятое исследование данных, которое является предпосылкой для интеллектуального анализа данных, статистики, машинного обучения (ML) и других методов аналитики.
Озеро данных также может обеспечить масштабируемое и высокоэффективное сборы данных, подготовку и обработку данных, чтобы быть уточненным и загруженным в хранилище данных или для обработки в рамках озера данных.
По словам Джейсона Сороко, старшего научного сотрудника Sectigo, поставщика комплексных сертификатных сертификатов, старший научный сотрудник, старший научный сотрудник Sectigo, поскольку Lakes хранит необработанные данные, и предлагает передовую аналитику, наблюдаемость-с правильной платформой-может использовать озера Data Lakes для отладки, генерации Insight и прогнозирования.
Интеграция ИИ и автоматических инструментов улучшает мониторинг по всему стеку. По словам Сороко, единое употребление данных через Opentelemetry еще больше оптимизирует операции, снижая силос.
«Озера данных необходимы для когерентной наблюдения», — сказал он. «Итак, с учетом этой идеи согласованности, выбор правильной платформы является ключевым».
Без озера данных платформы наблюдения, связанные с запатентованной фрагментацией риска хранения. По словам Сороко, мандат отдельных серверов или облачных ресурсов усложняет консолидацию данных и ограничивает единый анализ.
«Централизованный подход к озеру данных объединяет разрозненные источники, обеспечивая масштабируемую обработку и четкую информацию. Идея озера данных, кажется, проста в себе, но мы знаем, что в реализации существует большая сложность », — сказал он. «Руководящий принцип должен заключаться в том, чтобы обеспечить согласованность, что является целым смыслом того, почему озеро данных эффективно».
Почему озера данных не для всех
С правильной платформой наблюдаемость может применяться к озеру данных не только для отладки, но и для получения информации о бизнесе, делать прогнозы и должным образом отслеживать весь стек. Кроме того, стеки данных и ИИ будут играть значительную роль в наблюдении, как они уже это делают сегодня и будут продолжать делать в будущем для автоматических функций наблюдения.
Тем не менее, озера данных не нужны для каждой организации. Действительно, для наблюдения, есть даже недостатки, сказал Ричард «Ричих» Хартманн, директор сообщества и офис технического директора в Grafana Labs, сообщил The New Stack.
«В то время как Data Lakes предлагают мощные возможности для науки о данных и аналитики, они не являются оптимальной основой для систем наблюдения», — сказал Хартманн. «Задержка и затраты на озера данных делают их плохо подходящими для высокопроизводительных требований к современной наблюдаемости».
Тогда есть задача интеграции — и хранения — данные. В то время как хранилище относительно дешево по сравнению с стоимостью использования облачных инструментов и платформ для поддержки наблюдаемости, затраты на интеграцию могут работать на высоком уровне.
«Как мы можем преодолеть огромную стоимость интеграции всех этих данных? Одна вещь будет в большей степени из этой постобработки, используя инструменты для искусственного интеллекта для сшивания вещей по-новому, вместо того, чтобы построить и убедиться, что все ваши отношения чисты »,-сказал New Stack New Relic, главный технический стратег в New Relic.
«У организаций будут тысячи озер. Это будет ситуация, когда компании через несколько лет в основном будут держать свои данные в читаемых форматах ».
Озера данных также не являются бинарным предложением, как в 0 или 1, где необходимо наличие озера данных, и не иметь его, не является жизнеспособным. Интеграция, простота использования, стоимость, безопасность и другие соображения поддержки озера данных так же хороши, как и платформа наблюдения, которая использует данные в репозитории.
Данные озера и правильные инструменты наблюдения требуются. Действительно, ключевая задача не заключается в том, чтобы заставить организации выбирать между платформами наблюдения и озерами данных. Скорее, организации могут выбрать использовать открытые стандарты и гибкие интеграции, чтобы «получить лучшее из обоих миров», сказал Хартманн.
«Через такие инструменты, как OpenElemetry и расширяемые платформы, которые интегрируются с сотнями источников данных — с возможностью поддержки собственных озерных озер клиентов — организации могут создавать решения для мониторинга, которые соответствуют их конкретным потребностям», — сказал он. «Там, где это становится особенно интересным, связано с аспектом мета-мониторинга-платформы наблюдаемости могут фактически помочь организациям оптимизировать производительность своего озера данных, отслеживать модели использования данных и определить возможности для оптимизации затрат».
Некоторые поставщики наблюдения могут потребовать, чтобы организации хранили данные на своих серверах или облачных ресурсах, что потенциально создает озеро данных через свои услуги. Тем не менее, этот подход может быть не идеальным для организаций, стремящихся консолидировать различные источники данных с помощью Opentelemetry и других методов для создания унифицированного пула данных у разных поставщиков наблюдения и облачных источников.
CSS Electronics полагалась на Grafana для визуализации данных о озере данных, Мартина Фальча, совладельца и руководителя отдела продаж и маркетинга в CSS Electronics, описанном в посте в блоге Grafana Labs. Интеграция озера данных использовалась для создания регистраторов сети контроллера (CAN). (Can Bus — это протокол, используемый для передачи данных датчиков в автомобилях и машинах, включая грузовики, автомобили, корабля и роботы.)
Пользователи, пишет Фальч, используют источник данных как часть более широкого рабочего процесса для визуализации данных — в частности, автоматической обработки данных с помощью функций AWS Lambda для создания паркетных озеров данных, клея (серверы интеграции данных для серверов) и других задач, работающих в AWS, чтобы отобразить эти озера данных.
Тем не менее, предлагается много решений озера данных, и покупатели должны остерегаться. «Когда поставщики заставляют пользователей хранить данные в своих проприетарных озерах данных,-сказал Хартманн,-« они по сути создают дорогие, ограниченные функциональные реплики того, что лучшие платформы данных лучших классов уже лучше ».
Не все данные телеметрии бесценны
Озера данных становятся важными для функциональности наблюдаемости для многих организаций. Но озера данных, безусловно, не все, и все конечно. Идея состоит в том, чтобы иметь готовый доступ к интеллекту наблюдения, который анализирует правильные данные.
Однако не все данные, будь то в озере данных или нет, позволяют быть приняты доступной и автоматизированной наблюдении, в которой могут быть приняты бизнес -решения, аналитика операций, тесты разработчиков и действия безопасности. Другими словами, не все данные телеметрии бесценны.
«По сути, при реагировании на инциденты у вас нет времени на обработку необработанных данных из озеров данных. Вам нужны готовые к использованию панели, оповещения и системы мониторинга »,-сказал Хартманн. «Существуют определенные варианты использования для озеров данных, но вам сначала необходимо определить, какие бизнес -понимания наиболее ценны, а затем селективно оптимизируют эти конкретные пути данных».
Этот подход, по его словам, «позволяет вам поддерживать отзывчивость в реальном времени, необходимую для оперативного мониторинга, в то же время стратегически используя озера данных, где они имеют смысл в бизнесе».
Elastic, компания поиска ИИ, помогает вам найти ответы, которые вам нужны в режиме реального времени, в масштабе — из всех данных. Благодаря нашему решению об наблюдении, предотвращайте отключения и ускоряйте решение проблем с релевантностью на основе поиска, повышенной операционной эффективностью и затратами, а также открытыми, защищенными от будущих инвестиций. Узнайте больше последних из Elastic Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. BC Gain является основателем и главным аналитиком Revecom Media. Его одержимость компьютерами началась, когда он взломал консоль космических захватчиков, чтобы играть весь день за 25 центов в местной видеокаде в начале 1980 -х годов. Затем он … читайте больше от B. Cameron Gain