
數據治理在真正落地過程時(即數據管理的時候) , 針對的數據也需要明確一下 , 能夠治理哪種類型的數據 , 哪種類型不在數據治理范圍內 。
本章我們主要對數據按照結構和數據內容上進行一個劃分 , 看看數據治理主要是針對哪類的數據 。
一、從數據結構上從數據的結構上來說 , 數據主要分成三種類型:結構化數據、半結構化數據、非結構化數據 。
1. 結構化數據結構化數據是指具有明確的結構和格式 , 可以用固定的模式進行組織和存儲的數據 。
通常它遵循特定的數據模型 , 比如關系型數據庫中的表結構 , 數據以行和列的形式呈現 , 每一列都有明確的數據類型定義(如整數、字符串、日期等) , 便于進行高效的查詢、分析以及計算機程序的處理 。
常見的結構化數據來源包括企業的財務系統數據(如賬目明細、報表等)、客戶關系管理系統(CRM)中客戶的基本信息(姓名、聯系方式、地址等) 。
2. 半結構化數據半結構化數據具有一定的結構 , 但不像結構化數據那樣嚴格遵循固定的模式 。
它一般包含有標簽或者標記來對數據元素進行區分 , 但整體結構相對靈活 , 可擴展性較強 。
常見的表現形式有 XML(可擴展標記語言)、JSON(JavaScript 對象表示法)格式的數據 , 例如在網頁中 , 通過 HTML 標簽來組織不同部分的內容(標題、正文等) , 其內容結構有一定條理但又不像數據庫表那樣固定 , 還有日志文件 , 有一些時間戳、事件類型等標識 , 但每行記錄的具體詳細內容長度、格式等可能有差異 。
3. 非結構化數據非結構化數據是指那些沒有固定結構 , 難以用傳統的數據庫表結構等方式進行組織和存儲的數據 。
這類數據形式多樣 , 通常以文本、圖像、音頻、視頻等形式存在 。
比如員工寫的工作總結文檔(文本內容隨意性大 , 沒有固定格式規范)、監控攝像頭拍攝的視頻資料、會議的語音記錄等 , 其內容理解和處理往往需要借助特定的技術手段(如自然語言處理用于文本分析、圖像識別技術用于圖像內容解析等) 。
二、從數據內容上如果從數據內容上進行劃分大概可以劃分為四類:主數據、參考數據、事務數據(交易數據)、統計分析數據 。
有的也會將元數據放在這個分類中 。 但個人覺得元數據是另一個層面的數據 。 暫時不放在一起討論了 。
1. 主數據主數據又被稱為“黃金數據” 。
主數據是企業內用來描述核心業務實體的數據 , 具有高穩定性、跨業務流程和系統共享的特點 。
它是企業運營的關鍵基礎信息 , 像企業中涉及的客戶、供應商、員工、產品、資產等這些核心對象的基本信息都屬于主數據范疇 。
主數據的準確性、一致性和完整性至關重要 , 因為它會被多個業務部門和不同的業務系統所引用 , 一旦出現錯誤或不一致 , 可能會導致整個業務流程的混亂 , 比如在銷售部門、售后部門以及財務部門都會用到客戶的主數據來開展相應業務工作 。
主數據管理(MDM)是數據治理領域一個專門的話題 , 其主要目的是對關鍵業務實體(如員工、客戶、產品、供應商等)建立統一視圖 , 讓客觀世界里本是同一個人或物 , 在數據世界里也能做到唯一識別 , 而不是在不同系統、不同業務中成為不同的人或物 。
主數據治理的核心思想和數據治理的思路方法是一脈相承的 , 但是因為他過于重要 , 通常又被放在一個單獨的領域去獨立討論 。 如涉及到客戶主數據的時候 , 有ECIF系統 , ECIF是企業級客戶信息整合系統(Enterprise Customer Information Facility) 。
個人也曾經參與過一個ECIF系統的建設 , 當時主要是使用客戶的三證信息(證件類型、證件號碼、姓名 , 忘了是否包含性別了 。 )生成唯一的一個ECIF_ID來保證不同系統里面的客戶判斷是否是同一個人 。 這種過程其實是使用工程化的思路來保證不同系統里面的關鍵主數據的唯一性 。 每一次也主要針對一類主數據 。 這類主數據確定之后 , 不同業務系統中如何進行接入或者更新 , 都是需要從系統工程改造層面進行考慮的 , 而不僅僅是數據治理層面了 。
所以主數據的治理雖然在核心思路上和數據治理是一致的 , 過程也都需要數據集成、數據清洗 , 保證數據質量 , 但是在實現的時候更加偏工程化的實現 , 還是更加偏數據治理的來實現 , 確實是一個需要考慮的過程 。 目前個人也沒有特別好的思路 。 只能說主數據是數據治理中的一個重要部分 。 至于說是否將主數據直接包含在數據治理過程中 , 需要考慮定義好的 。
聽說華為是因為財務主數據的不一致 , 在進行結算的時候不能對齊 , 所以才啟動的華為數據治理 。 也就有了華為那本《華為數據治理之道》 。 不過像上面說的 , 是否將主數據都包含在數據治理領域 , 包含哪些類型的主數據 , 確實需要仔細討論一下 。
2. 參考數據參考數據通常是一組相對固定的、用于對其他數據進行分類、描述、參照的數據集合 。
它起到了一種標準、規范或者代碼表的作用 , 幫助企業確保數據錄入和使用的一致性 。
參考數據一般變動頻率較低 , 用于給業務操作和數據記錄提供標準選項 。
例如 , 國家地區代碼表(用特定代碼對應不同的國家和地區)、性別分類(用特定代碼或值表示男、女等)、學歷層次分類(如小學、初中、高中、本科等)都屬于參考數據 , 它能讓不同業務人員在填寫相關信息時按照統一標準來執行 , 便于后續的數據統計與分析 。
一般參考數據也會有一些國家標準、地方標準、行業標準等等 。 提供參考 。 可以直接使用這些標準 。
3. 事務數據事務數據 , 或者稱為交易數據 。
事務數據是企業在日常業務運營過程中 , 由具體業務活動所產生的數據 , 它記錄了業務事件的詳細情況 , 通常與業務流程緊密相關 , 且數據量往往隨著業務的開展不斷增長 。
例如訂單的下單記錄、庫存的出入庫記錄、財務的每一筆收支記錄等都屬于事務數據 。 它能夠反映企業業務的動態變化情況 , 是后續進行業務分析、審計、流程優化等工作的重要依據 。
4. 統計分析數據統計分析數據大部分是一種指標數據 。
統計分析數據是對企業業務活動進行統計分析 。 且分析的數據主要是對事務數據進行匯總加工 。
指標數據是數據治理的重點 , 指標的數據流分析、指標數值的波動性、平衡性監控 , 幾乎是各個企業做數據治理時一定會做的 。
三、從數據來源上劃分從數據來源上劃分 , 又分為內部數據和外部數據 。
1. 內部數據是企業或組織自身運營過程中產生的數據 , 比如企業內部的生產數據(產量、生產時間、工藝參數等)、銷售數據(訂單數量、銷售額、客戶信息等)、人力資源數據(員工基本信息、考勤情況、績效情況等) , 這些數據反映了組織內部的業務開展、管理等各方面狀態 , 是進行內部管理分析、決策的重要依據 。
【第六章:數據治理作用的數據分類是什么】
2. 外部數據來自于企業或組織外部的環境 , 包括宏觀經濟數據(如國家 GDP 增長數據、通貨膨脹率等)、行業數據(如行業平均利潤率、市場占有率分布等)、市場調研數據(通過外部調研機構收集的消費者偏好、市場需求情況等) , 外部數據有助于企業了解所處的大環境 , 對比自身與行業整體情況 , 輔助制定戰略、規劃等 。
四、數據治理作用的數據分類是什么我們在數據治理過程中 , 數據治理針對哪類的數據?
從數據結構上 , 數據治理主要針對的是結構化的數據 , 部分半結構化的數據在轉換為固定結構之后 , 也可以在數據治理范圍內 。 但是針對非結構化數據的治理 , 一般不在范圍內 。 但是 , 非結構化數據的治理也是一個特別的領域 , 這部分如何治理也是需要研究的 。
從數據內容上 , 數據治理主要針對的是業務數據和統計分析數據 。 參考數據不絕對 , 有時候可以放在維度中進行考慮 。 針對主數據 , 就需要特別考慮一下 , 在治理思路上數據治理和主數據治理是相同的 。 但是是否將主數據治理也納入到數據治理的整個過程中 , 確實需要慎重考慮的 。 是更加偏工程化的每次進行一類主數據的治理 , 還是在數據治理中統一進行全部主數據治理 。 是需要在項目之初考慮清楚的 。
從數據來源上 , 數據治理對于內部數據還是外部數據 , 只要在數據結構上試用 , 其實都是在數據治理的范圍內的 。 不過針對外部數據的時候 , 需要更多的考慮數據的權限、隱私等等 。
五、總結本章對數據從不同的維度 , 進行了一個分類 。 討論一下個人認為數據治理針對哪類的數據更加適合 。 算是在說起數據治理的時候 , 能夠更加明確知道作用的數據類型是什么 。
本文由人人都是產品經理作者【數據小吏】 , 微信公眾號:【數據小吏】 , 原創/授權 發布于人人都是產品經理 , 未經許可 , 禁止轉載 。
題圖來自Unsplash , 基于 CC0 協議 。
推薦閱讀
- 算法與算法之外:內容推薦系統如何運行?
- 2025年入手KINDLE X咪咕版,到手后悔
- RTX 5090D解禁絕無可能!RTX 5090D v2都懸而未決
- AI寫的文章為什么總是“不能細看”
- 華為Pura 80 Pro系列開啟優惠
- 華為Mate XT2三折疊順利入網:搭載衛星通信與純血鴻蒙
- 7月公認“接近完美”的3款真香機,16GB+512GB成“價格屠夫”
- 7月又一款新機官宣:7月18日,正式開售
- 華為Mate 70 Pro現在購買還值得嘛?
- 當貝AI升級超級大腦,全新Kimi K2助力
