導(dǎo)讀:隨著大數(shù)據(jù)的深入發(fā)展,數(shù)據(jù)越來越成為公司的重要資產(chǎn),但圍繞數(shù)據(jù)流的全鏈路管理工作細(xì)致且技術(shù)復(fù)雜,數(shù)據(jù)的治理越來越成為DT時(shí)代數(shù)據(jù)資產(chǎn)化、價(jià)值化的關(guān)鍵核心,該如何成體系地構(gòu)建數(shù)據(jù)治理框架?今天將介紹阿里巴巴在數(shù)據(jù)治理上的一些實(shí)踐和總結(jié)。主要包括以下兩方面內(nèi)容:
01
數(shù)據(jù)治理概念和需求層次
1. 數(shù)據(jù)治理的理論參考
數(shù)據(jù)以及數(shù)據(jù)領(lǐng)域經(jīng)過多年的發(fā)展,行業(yè)已經(jīng)沉淀了較為完善的理論體系,比如數(shù)據(jù)管理協(xié)會(huì)DAMA推出的數(shù)據(jù)十大職能領(lǐng)域、DCMM推出的數(shù)據(jù)管理能力成熟度評(píng)估,以及國(guó)內(nèi)信通院推出的數(shù)據(jù)資產(chǎn)管理實(shí)踐白皮書。這些指導(dǎo)標(biāo)準(zhǔn),不但有利于產(chǎn)業(yè)發(fā)展的高度,同時(shí)也使得行業(yè)朝著更加規(guī)范、健康的方向發(fā)展。
國(guó)際上的標(biāo)準(zhǔn)更加側(cè)重于對(duì)完整的數(shù)據(jù)生命周期進(jìn)行管理,而國(guó)內(nèi)則更加注重從組織、制度、流程、技能角度,對(duì)數(shù)據(jù)進(jìn)行不同視角下的解讀和處理。
2. 數(shù)據(jù)治理的概念和需求層次
在數(shù)據(jù)的管理過程中,要保證一個(gè)組織已經(jīng)將數(shù)據(jù)轉(zhuǎn)換成有用的信息,在這個(gè)過程中所需要的流程、工具就是數(shù)據(jù)治理的主要內(nèi)容。
隨著數(shù)據(jù)行業(yè)的發(fā)展,數(shù)據(jù)治理的內(nèi)涵也逐步泛化,涵蓋了更多的方面和層次,比如數(shù)據(jù)發(fā)現(xiàn)可用,數(shù)據(jù)及時(shí)穩(wěn)定產(chǎn)出,數(shù)據(jù)質(zhì)量保障,數(shù)據(jù)安全合規(guī),數(shù)據(jù)生產(chǎn)的經(jīng)濟(jì)性等。對(duì)于企業(yè)的不同發(fā)展階段,數(shù)據(jù)治理的需求也存在著差異。
- 時(shí)效:對(duì)于自有數(shù)據(jù)產(chǎn)生系統(tǒng),數(shù)據(jù)生產(chǎn)的時(shí)效問題,決定了后續(xù)所有的數(shù)據(jù)處理的及時(shí)和數(shù)據(jù)的價(jià)值。比如理財(cái)方面,股市開放時(shí)間內(nèi),每天都會(huì)計(jì)算營(yíng)收情況,如果數(shù)據(jù)產(chǎn)生不及時(shí),會(huì)造成用戶的困擾和可能的利益損失。
- 質(zhì)量:主要從數(shù)據(jù)自身屬性和特點(diǎn)的角度,來衡量數(shù)據(jù)可靠的一些標(biāo)準(zhǔn),包含了準(zhǔn)確性、完備性、唯一性、一致性、有效性等。
- 可用:數(shù)據(jù)的接入和加工完成后,就是數(shù)據(jù)發(fā)揮價(jià)值的環(huán)節(jié),即數(shù)據(jù)要容易被查詢到,并且能夠被理解。另外一個(gè)比較重要的點(diǎn)是可復(fù)用,復(fù)用可以放大數(shù)據(jù)價(jià)值。
- 安全:談到數(shù)據(jù),就會(huì)涉及安全性,主要包括數(shù)據(jù)權(quán)限的管理,敏感數(shù)據(jù)的處理與應(yīng)用,以及滿足各種數(shù)據(jù)政策和法規(guī)的要求。
- 經(jīng)濟(jì):在數(shù)據(jù)的生產(chǎn)、處理,以及價(jià)值挖掘等環(huán)節(jié)相對(duì)完善之后,圍繞數(shù)據(jù)體系的經(jīng)濟(jì)特性,將會(huì)是企業(yè)的重點(diǎn)考慮方向。
—
02
企業(yè)數(shù)據(jù)治理痛點(diǎn)、阿里巴巴數(shù)據(jù)治理實(shí)踐
1. 企業(yè)數(shù)據(jù)治理的典型痛點(diǎn)
隨著國(guó)家數(shù)字化政策的引導(dǎo)和推動(dòng),企業(yè)越來越重視數(shù)據(jù),但企業(yè)的數(shù)據(jù)治理成效方面依然進(jìn)展緩慢,數(shù)據(jù)問題依舊存在,其中缺少系統(tǒng)化的工具平臺(tái)支撐治理落地和效果展現(xiàn)是關(guān)鍵原因之一。
- 數(shù)據(jù)治理咨詢成果落地不足:數(shù)據(jù)治理產(chǎn)出成果,比如各類規(guī)范和管理辦法,包括數(shù)據(jù)字典,多以“紙面文件”的形式流轉(zhuǎn)與企業(yè)中,與實(shí)際業(yè)務(wù)和數(shù)據(jù)沒有緊耦合,能滿足“我有”,但是沒能做到“我執(zhí)行”。
- 自動(dòng)化服務(wù)程度不高:業(yè)務(wù)人員使用數(shù)據(jù)更多需要數(shù)據(jù)和技術(shù)人員的貼身服務(wù),按照IT建設(shè)的模式提出數(shù)據(jù)加工需求或者取數(shù)需求,以被動(dòng)支持的方式滿足業(yè)務(wù)需求,沒有形成數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)服務(wù)目錄。
- 數(shù)據(jù)治理在線管理能力不足:依賴貼身服務(wù),業(yè)務(wù)人員難以借助工具自行完成。缺少靈活友好的數(shù)據(jù)治理在線管理工具來支持?jǐn)?shù)據(jù)治理全流程工作,數(shù)據(jù)治理與數(shù)據(jù)原倉(cāng)之間沒有打通“數(shù)據(jù)的描述”和“數(shù)據(jù)的記錄”兩張皮。
- 數(shù)據(jù)治理成效可視度低:缺少量化方式來評(píng)估數(shù)據(jù)治理成熟度水平,數(shù)據(jù)治理工作的推動(dòng)成效無法體現(xiàn),變成了純手動(dòng)的臟活累活,嚴(yán)重影響數(shù)據(jù)治理工作的開展推進(jìn)。
治理中的痛點(diǎn)有很多,往往是由于認(rèn)識(shí)不足導(dǎo)致的,尤其是思維方式。信息技術(shù)的飛速發(fā)展,使得信息的架構(gòu)已經(jīng)從傳統(tǒng)基于需求的IT架構(gòu)發(fā)展為基于數(shù)據(jù)的DT架構(gòu),思維方式也需要相應(yīng)地升級(jí)到圍繞數(shù)據(jù)資產(chǎn)化、數(shù)據(jù)價(jià)值釋放為核心的新模式。
2. 阿里巴巴數(shù)據(jù)治理新模式
不同模式下思考和解決問題的方式存在著很大的區(qū)別,模式的改變主要包括以下三個(gè)方面:
- 變思維:轉(zhuǎn)變傳統(tǒng)思維定式,從IT思維向DT思維轉(zhuǎn)型
- 變模式:工具和技術(shù)是生產(chǎn)工具,數(shù)據(jù)才是核心,IT流程不是核心
- 變定位:擺脫成本中心泥潭,通過運(yùn)營(yíng)數(shù)據(jù)資產(chǎn),探索如何成為利潤(rùn)中心
基于DT架構(gòu)的思維模式,結(jié)合數(shù)據(jù)發(fā)展的階段不同,阿里巴巴形成了一套自己的數(shù)據(jù)治理模式:
- 數(shù)據(jù)穩(wěn)定性與質(zhì)量治理:解決數(shù)據(jù)產(chǎn)出及時(shí)性和準(zhǔn)確性問題
- 數(shù)據(jù)規(guī)范治理:解決數(shù)據(jù)口徑一致性問題
- 數(shù)據(jù)安全治理:解決數(shù)據(jù)權(quán)限控制與數(shù)據(jù)共享交換問題
- 數(shù)據(jù)成本治理:解決數(shù)據(jù)計(jì)算和存儲(chǔ)成本高昂?jiǎn)栴}
① 數(shù)據(jù)穩(wěn)定性
阿里巴巴每天有千萬級(jí)大數(shù)據(jù)計(jì)算任務(wù)產(chǎn)生海量數(shù)據(jù),千萬級(jí)任務(wù)的調(diào)度情況下,調(diào)度依賴關(guān)系復(fù)雜程度遠(yuǎn)超過人工處理程度,阿里推出了智能基線監(jiān)控機(jī)制確保高優(yōu)先任務(wù)高保障產(chǎn)出。
- 智能識(shí)別(DAG)關(guān)鍵路徑,合理設(shè)定告警閾值
- 任務(wù)異常產(chǎn)生事件,自動(dòng)評(píng)估事件影響范圍,通知相應(yīng)人員
- 靈活告警方式配置,支持釘釘群機(jī)器人、電話
② 數(shù)據(jù)質(zhì)量治理
數(shù)據(jù)質(zhì)量直接影響數(shù)據(jù)價(jià)值和加工效率,高質(zhì)量的數(shù)據(jù)對(duì)完整性、有效性、準(zhǔn)確性、唯一性、一致性、合理性等特性有很高的要求。阿里巴巴將這些特性封裝成靈活的規(guī)則,然后將規(guī)則應(yīng)用到具體的任務(wù),通過調(diào)度平臺(tái),進(jìn)行規(guī)則巡檢和規(guī)則執(zhí)行,并對(duì)有問題的任務(wù)進(jìn)行告警或者阻塞處理。其關(guān)鍵特點(diǎn)如下:
- 質(zhì)量監(jiān)控與調(diào)度掛鉤,第一時(shí)間發(fā)現(xiàn)問題,避免上游臟數(shù)據(jù)污染下游數(shù)據(jù),大大減小影響面。
- 40+規(guī)則&自定義規(guī)則,精細(xì)化質(zhì)量控制。
- 無需設(shè)定閾值,算法自動(dòng)判斷異常值。
- 故障快速恢復(fù)。
③ 數(shù)據(jù)規(guī)范治理
數(shù)據(jù)在實(shí)現(xiàn)層面以表為單位進(jìn)行,阿里巴巴圍繞數(shù)據(jù)生產(chǎn)使用全生命周期,在指標(biāo)體系設(shè)計(jì)、數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)處理任務(wù)開發(fā)、數(shù)據(jù)服務(wù)開放等環(huán)節(jié)的每個(gè)關(guān)鍵階段都設(shè)計(jì)具體標(biāo)準(zhǔn)、流程及規(guī)范,同時(shí)抽象核心公共層,進(jìn)行強(qiáng)管控:架構(gòu)評(píng)審,發(fā)布管控,建設(shè)評(píng)估,持續(xù)改進(jìn)。而對(duì)核心以外的部分,采取輕約束的方式推進(jìn)。
④ 數(shù)據(jù)標(biāo)準(zhǔn)管理
數(shù)據(jù)的標(biāo)準(zhǔn),主要是落實(shí)到開發(fā)層面的具體規(guī)范約束,比如制定各類數(shù)據(jù)實(shí)體(元素、碼表、模型分層、模型等)的設(shè)計(jì)約束,規(guī)范每類業(yè)務(wù)實(shí)體包含的屬性,屬性是否必須,屬性內(nèi)容約束等規(guī)則。
具體如圖所示:
⑤ 數(shù)據(jù)安全治理
隨著數(shù)據(jù)安全問題頻發(fā),人們對(duì)數(shù)據(jù)的安全意識(shí)越來越強(qiáng)烈,數(shù)據(jù)安全治理也越來越關(guān)鍵。阿里巴巴通過基礎(chǔ)的數(shù)據(jù)分級(jí)、權(quán)限控制來達(dá)到規(guī)范安全使用數(shù)據(jù)的目的,并通過敏感數(shù)據(jù)發(fā)現(xiàn)與脫敏,與第三方協(xié)作時(shí)構(gòu)建可信計(jì)算環(huán)境(即聯(lián)邦建模),以及數(shù)據(jù)的風(fēng)險(xiǎn)審計(jì)來搭建數(shù)據(jù)安全的完整體系。
其中對(duì)數(shù)據(jù)的分類,面向阿里龐大的數(shù)據(jù)體量,使用人工的方式很不現(xiàn)實(shí),阿里自建了一套自動(dòng)的數(shù)據(jù)打標(biāo)工具,集合人工調(diào)整的方式,更合理地管理數(shù)據(jù)的分類分級(jí)體系。
⑥ 數(shù)據(jù)成本治理
通過設(shè)立組織大的成本目標(biāo),然后通過培養(yǎng)個(gè)人的成本意識(shí),在數(shù)據(jù)的計(jì)算與存儲(chǔ)、治理與運(yùn)營(yíng)層面建立具體目標(biāo)去細(xì)化和落地,來推進(jìn)數(shù)據(jù)治理方面的成本管理。比如阿里巴巴2020年成本治理的目標(biāo):數(shù)據(jù)成本增速不能超過業(yè)務(wù)增速。
3. 阿里巴巴數(shù)據(jù)治理的成功關(guān)鍵
數(shù)據(jù)治理是一個(gè)非常龐大且細(xì)致的工作,阿里數(shù)據(jù)治理方面的成功主要源于上圖三個(gè)方面。
DT時(shí)代的核心思維就是數(shù)據(jù)的資產(chǎn)化,阿里將數(shù)據(jù)的資產(chǎn)化以及圍繞數(shù)據(jù)資產(chǎn)的價(jià)值的挖掘作為治理的核心目標(biāo)。
從自上而下來看,站在全公司的高度來頂層設(shè)計(jì),著手解決數(shù)據(jù)的管理問題,提供足夠的授權(quán)和支持。
從下而上來看,通過構(gòu)建強(qiáng)大的技術(shù)平臺(tái)支撐和完善的運(yùn)營(yíng)體系兩個(gè)方面促進(jìn)治理的切實(shí)落地。
- 一套組織體系與制度
阿里構(gòu)建了以數(shù)據(jù)管理團(tuán)隊(duì)負(fù)責(zé)人、業(yè)務(wù)線數(shù)據(jù)負(fù)責(zé)人、數(shù)據(jù)平臺(tái)負(fù)責(zé)人為核心的虛擬數(shù)據(jù)治理小組,從組織上劃分清洗數(shù)據(jù)治理的權(quán)責(zé)邊界, 并且從管理辦法、管理流程、技術(shù)規(guī)范及模板等建立起完整的數(shù)據(jù)治理制度保障。
- 一部數(shù)據(jù)資產(chǎn)管理方法論:按照數(shù)據(jù)運(yùn)營(yíng)思想貫穿數(shù)據(jù)建設(shè)的全過程。
- 一組平臺(tái)工具支撐
強(qiáng)大的平臺(tái)能力支撐是治理落地的核心保障,技術(shù)的創(chuàng)新和演進(jìn)是數(shù)據(jù)治理落地的堅(jiān)實(shí)基礎(chǔ)。阿里自研了DataWorks和MaxCompute兩個(gè)平臺(tái),支撐全司的數(shù)據(jù)治理落地。
DataWorks:阿里自研的一站式大數(shù)據(jù)開發(fā)和治理平臺(tái),各類存儲(chǔ)和計(jì)算引擎的上層操作系統(tǒng),提供數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)地圖、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全和數(shù)據(jù)服務(wù)等全方位的產(chǎn)品服務(wù),幫助企業(yè)專注于數(shù)據(jù)價(jià)值的挖掘和探索。
MaxCompute:自研、全托管、EB級(jí)大數(shù)據(jù)存儲(chǔ)和計(jì)算引擎,阿里自研的安全可靠、高效能、低成本、從GB到EB級(jí)別按需彈性伸縮的在線大數(shù)據(jù)計(jì)算服務(wù),致力于海量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算服務(wù),提供數(shù)據(jù)倉(cāng)庫的解決方案及分析建模服。
- 運(yùn)營(yíng)落地
組織、制度、平臺(tái)有了之后,推動(dòng)數(shù)據(jù)治理落地最后一公里的治理運(yùn)營(yíng)是成功的關(guān)鍵因素。阿里巴巴構(gòu)建了量化的治理的評(píng)價(jià)體系(健康分)、日常治理運(yùn)營(yíng)推送和專項(xiàng)整治活動(dòng)密切結(jié)合。
構(gòu)建量化的數(shù)據(jù)治理評(píng)價(jià)體系,日常治理運(yùn)營(yíng)和專項(xiàng)整治相結(jié)合,促進(jìn)治理工作持續(xù)落地改進(jìn)。
今天的分享就到這里,謝謝大家。
分享嘉賓:吳永明 阿里云 高級(jí)技術(shù)專家
編輯整理:Taylor 東南數(shù)據(jù)實(shí)驗(yàn)室
出品平臺(tái):DataFunTalk
分享嘉賓:
活動(dòng)推薦:
關(guān)于我們:
DataFun:專注于大數(shù)據(jù)、人工智能技術(shù)應(yīng)用的分享與交流。發(fā)起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會(huì),已邀請(qǐng)超過2000位專家和學(xué)者參與分享。其公眾號(hào) DataFunTalk 累計(jì)生產(chǎn)原創(chuàng)文章700+,百萬+閱讀,14萬+精準(zhǔn)粉絲。
歡迎轉(zhuǎn)載分享評(píng)論,轉(zhuǎn)載請(qǐng)私信。