免費注冊
數據治理包括哪幾個方面

數據治理包括哪幾個方面

作者: 低代碼架構師Kaiwen
閱讀數:2570
更新時間:2024-02-23 12:34:50
數據治理包括哪幾個方面
p class="p1">數據治理核心工作包括4個方面,分別是:元數據管理平臺、數據血緣、數據質量、和數據ROI。接下來我們將逐步講解。

 

什么是數據治理

 

根據AZure的定義,數據治理是流程、策略、角色、指標和標準的集合,可確保有效和高效地使用信息。這還有助于建立數據管理過程,在整個數據生命周期內保持數據安全、私密、準確且可用。

對于使用數據推動業務增長、改進決策并確保在競爭激烈的市場中獲得成功的任何組織而言,可靠的數據治理策略至關重要。在收集大量內部和外部數據時,需要制定一種策略來有效管理風險、降低成本和執行業務目標。

根據GoogleCloud的定義,數據治理是指為確保數據安全、私有、準確、可用和易用所執行的所有操作。它包括人們必須采取的行動、必須遵循的流程以及在整個數據生命周期中為其提供支持的技術。數據治理意味著設置適用于收集、存儲、處理和處置數據的內部標準,即數據策略。它規定了誰可以訪問哪些數據以及哪些數據應受治理。數據治理還涉及遵循行業協會、政府機構和其他利益相關者設定的外部標準。 

 

收據治理的五個方面之一:元數據管理平臺

 

元數據,又稱為MetaData,是很多數據平臺、軟件系統的核心。如果你熟悉Mysql,那么Mysql中的庫、表、字段等信息,都可以認為是元數據。在大數據領域,元數據往往代表各個平臺中類似Mysql中庫、表、字段的信息,往往是通過SQL、Thrift、ProtoBuffer等格式進行定義,并通過相應的平臺進行管理,這個平臺就是元數據管理平臺,有的公司會給這個平臺起一個名字,叫數據工廠。許多數據庫、數據平臺中都有相應的元數據管理模塊,比如Hive、Es、Doris等等。

在小米大數據團隊分享的資料中(原文在https://blog.csdn.net/rlnlo2pnefx9c/article/details/121528248),我們可以看到元數據的另一種分類:從抽象來看,包括分為實體、實體的屬性以及實體與實體之間的關系三個方面來進行分類。實體主要指表元數據和作業元數據,來自于工程師在ETL的實際工作中所涉及到的系統。如:Hive、Doras、Kudu、MQ、ES、Iceberg,即傳統的數倉及上下游。

比如:實體包含了技術元數據和生產元數據。其中技術元數據用于支撐數據資產管理的資產地圖;生產元數據,主要是作業的一些調度信息和運行信息,用于支撐數據資產管理的數據質量和成本治理的服務。

實體的屬性,包含業務元數據和衍生元數據。

業務元數據包括數倉分層、數據分類、指標關聯、應用信息、隱私分級等內容。內容來源于建模規范、業務、指標系統、BI看板、數據報表,以及來自于業務的隱私分級定義等。業務元數據用于支撐資產管理的資產價值、安全治理以及規范治理。

衍生元數據包含元數據的存儲計量和訪問計量。存儲計量是服務于存儲層面的成本治理;訪問計量用于描述數據的使用情況,從技術角度去衡量資產的價值。衍生元數據來源于ETL工作中涉及的HDFS-Image、Doris、Kudu、MQ、ES以及HDFS-Log、SQL-Log。

描述實體的關系,包括血緣元數據,用于描述元數據之間的關聯關系,用于支撐數據資產管理中的影響分析和資產地圖服務。

關于元數據平臺和相應技術架構,我們后續再單獨講解

 

 

收據治理的五個方面之二:數據血緣

數據血緣,有時候又叫數據全景,解決的是數據之間依賴關系的收集、存儲和查詢、分析的問題。說一個常見的場景,某業務發現自己的表里有個字段要下線,但是不知道有哪些業務、哪些下游數據依賴這個字段,那么通過數據血緣一般就能回答這個問題。

依托數據血緣模塊,往往還可以發現數據元數據的搜索、上下游依賴關系的確認以及數據變更的全鏈路追蹤等功能。

 

收據治理的五個方面之三:數據質量

 

數據質量,在大數據領域是一個大問題。典型的場景例如,命名數據生產的POI在北京,但是實際存儲后發現數據的POI點到了成都,這對數據后期的使用,尤其是一些基于LBS的廣告業務來說是完全無法忍受的。

數據質量治理就是要解決這個問題。往往通過幾個方面進行:

組建專業的數據質量保障團隊

提出、發布數據規范,通過基礎SDK、數據流平臺準入等多種基礎架構平臺的管理和技術手段確保規范的落地

基于數據血緣等既有元數據平臺,打造數據質量自動回歸測試平臺

 

收據治理的五個方面之四:數據ROI

最后一部分是數據ROI。眾所周知,大數據海量數據的采集存儲分析計算等工作,需要大量的人力算力。舉個小例子,有些日志平臺,每天產生幾百上千T日志數據,供業務方檢索分析,往往需要耗費上百臺服務器來搭建ES集群才能支撐,加上數據平臺多副本存儲等技術需求,一個需求,就要花費每個月上百萬的服務器成本。但是這些日志如果只拿來分析技術故障、定位技術問題,顯然ROI就有點低了。

中大型企業中往往有大量的這類場景。這個時候,結合元數據,準確評估每份數據的需求、生產采集存儲計算成本、產生的價值,甚至是在不同的數據項目之間,合并同類項,就顯得非常必要。數據ROI解決的就是這類問題。

 

總結

最后,數據治理往往不是一帆風順的,往往要觸動很多技術部門和業務部門的既有利益和做法,需要有很強的資源協調能力,且無法一蹴而就。低代碼平臺打破了傳統的軟件開發模式,一切開發從元數據建模開始,具有原生數據治理、原生數據血緣等諸多優勢,如有需要基于低代碼平臺開展數字化業務,歡迎聯系我們

 

 

 

 

發表評論

評論列表

暫時沒有評論,有什么想聊的?

數據治理包括哪幾個方面最新資訊

分享關于大數據最新動態,數據分析模板分享,如何使用低代碼構建大數據管理平臺和低代碼平臺開發軟件

dtu通信模塊在物聯網中的應用場景有哪些?

DTU通信模塊在物聯網中的應用場景概述 隨著物聯網技術的飛速發展,DTU(Data Terminal Unit)通信模塊作為物聯網中的重要組成部分,正逐漸展現出其廣泛的應用前景。DTU通信

...
2024-07-07 00:39:41
數據采集系統平臺

一、數據采集系統平臺概述 1.1 數據采集系統平臺的定義 1.1.1 數據采集系統平臺的基本概念 數據采集系統平臺是一種集成了數據采集、存儲、處理和分析功能的綜合性技術平臺

...
2024-07-07 00:37:03
DTU是啥?深入解析DTU的工作原理和應用場景

DTU是啥?深入解析DTU的工作原理和應用場景 一、DTU的定義與概述 1. DTU的基本概念 DTU,全稱為數據終端設備單元(Data Terminal Unit),是一種用于遠程數據傳輸和通信的

...
2024-07-07 00:39:16

速優云

讓監測“簡單一點”

×

?? 微信聊 -->

銷售溝通:17190186096(微信同號)

售前電話:15050465281

微信聊 -->

速優物聯PerfCloud官方微信
伊在人亚洲香蕉精品区|校园久久综合激情四射伊人丁香|性色a∨人人爽网站|国产综合亚洲区高清在线观看