大數據

合理建立Hadoop數據庫的7個步驟

廣告
廣告

數據湖的概念起源于大數據的出現——且數據已成為企業的核心資產,Hadoop則是作為存儲和管理數據的平臺而出現。但是,盲目地投入Hadoop數據湖建設并不一定會使您的企業進入大數據時代——至少不是以一種成功的方式。

在將各種形狀和大小的數據資產以非統一方式匯入Hadoop環境或另一個大數據存儲庫的情況下,尤其如此。這種無序的方法會帶來一些挑戰和問題,這可能會成為使用數據湖來支持大數據分析應用程序的一大阻礙。

例如,您可能無法記錄哪些數據對象存儲在數據湖中,或紀錄其來源和出處。這使得數據科學家和其他分析人員很難找到分布在Hadoop集群中的相關數據,也難以使數據管理者識別誰可以訪問特定數據集,并確定其訪問權限級別。

如果您沒有一個良好的管理流程,組織數據并將相似的數據對象“桶裝”在一起以幫助簡化訪問和分析也將是一個挑戰。

這些問題都與數據湖或底層環境的物理架構無關,無論是Hadoop分布式文件系統還是像Amazon Simple Storage Service這樣的云對象存儲——或這些技術的組合,每種技術包含不同的類型數據。相反,成功實施數據湖的最大障礙來自對數據管理的規劃和監督不足。

處理Hadoop數據:做需要做的事

好的一點是,這些挑戰很容易克服。以下是解決和避免這些問題的七個步驟:

1、創建數據分類方法。在數據湖中對數據對象進行組織取決于其分類方式。在分類中需要確定數據的關鍵維度,例如數據類型、內容、使用方案、可能的用戶組和數據敏感性。后者涉及保護個人和公司數據,例如保護有關客戶的個人身份信息,或者保護知識產權。

2、設計適當的數據架構。應用定義好的分類方法來指導如何在Hadoop環境中組織數據。最終的計劃應包括諸如用于數據存儲的文件層次結構、文件和文件夾命名約定、用于不同數據集的訪問方法和控件、以及用于指導數據分發的機制之類的內容。

3、使用數據分析工具。在許多情況下,可以通過分析數據的內容,來部分地緩解對進入數據湖的所有數據了解不足的問題。數據概要分析工具可以通過收集有關數據對象中內容的信息來提供幫助,從而提供一些如何對其進行分類的見解。作為數據湖實施方案的一部分,對數據進行分析還有助于確定應評估的數據質量問題,以找出可能的修復方法,確保數據科學家和其他分析人員正在使用的信息是準確的。

4、標準化數據訪問過程。有效使用存儲在Hadoop數據湖中的數據集所面臨的困難,通常源于不同分析團隊使用多種數據訪問方法,而且其中許多未記錄。因此,建立一個通用而直接的API可以簡化數據訪問,并最終允許更多的用戶利用數據。

5、開發可搜索的數據目錄。有效數據訪問和使用面臨的一個更隱蔽的障礙是,除了有關數據沿襲、質量和流通的信息外,潛在用戶不知道數據湖中的內容以及Hadoop環境中不同數據集的位置。協作數據目錄允許將有關每個數據資產的前面這些以及其他詳細信息記錄在案。例如,它抓取結構和語義元數據、出處和親屬關系記錄、訪問權限信息等等。數據目錄還為用戶組提供了一個論壇,以共享有關使用數據的經驗,問題和建議。

6、實施足夠的數據保護。除了IT安全性的常規考慮(例如網絡邊界防御和基于角色的訪問控制)之外,還需要利用其他方法來防止暴露數據湖中包含的敏感信息。這包括數據加密和數據屏蔽之類的機制,以及自動監視,以生成有關未經授權的數據訪問或傳輸的警報。

7、在內部提高數據意識。最后,請確保您的數據湖用戶意識到有必要主動管理其包含的數據資產。教會他們如何使用數據目錄查找可用數據集,以及如何配置分析應用程序以訪問他們所需的數據。同時,給他們留下深刻印象的是正確使用數據和增強數據質量的重要性。

為了實現使數據湖可訪問和可用的最終目標,在將數據遷移到Hadoop環境或基于云的大數據架構之前,制定一個精心設計的數據處理計劃至關重要。采取本文中概述的步驟將有助于簡化數據湖的實施過程。更重要的是,規劃、組織和治理的正確組合將有助于最大程度地提高組織在數據湖中的投資,并降低部署失敗的風險。

原文作者: David Loshin

我還沒有學會寫個人說明!

什么是邊緣計算及其重要性?

上一篇

螞蟻金服研究員玉伯回顧阿里十一年成長之路

下一篇

你也可能喜歡

合理建立Hadoop數據庫的7個步驟

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃
重庆快乐10分苹果版本 38号测评靠什么赚钱呢 银行满减活动黄牛赚钱 刀剑英雄30级怎么赚钱 qq捕鱼大亨技巧 下载软件赚钱赢多多 华彩彩票网址 小志游戏之声赚钱是真的吗 四川麻将三人麻将规则 在手机上不投资怎样赚钱吗 过去投资免费赚钱生意 海南琼崖麻将 不需要身份证的赚钱软件 靠竞彩能赚钱吗 万能麻将辅助器免费 奔驰私家车怎么赚钱 自己开电影院怎么赚钱