欧美日韩国产一区二区|qovd片|小明个人发布看看|小浪货你夹真紧水又多|老头把我添高潮了A片故|99热久久精品国产一区二区|久久久春色AV

機(jī)器學(xué)習(xí)|MaxCompute 湖倉(cāng)一體介紹

機(jī)器學(xué)習(xí)|MaxCompute 湖倉(cāng)一體介紹

文章圖片

機(jī)器學(xué)習(xí)|MaxCompute 湖倉(cāng)一體介紹

文章圖片

機(jī)器學(xué)習(xí)|MaxCompute 湖倉(cāng)一體介紹

文章圖片

機(jī)器學(xué)習(xí)|MaxCompute 湖倉(cāng)一體介紹

文章圖片

機(jī)器學(xué)習(xí)|MaxCompute 湖倉(cāng)一體介紹

文章圖片

機(jī)器學(xué)習(xí)|MaxCompute 湖倉(cāng)一體介紹

正文:
本篇內(nèi)容將通過(guò)兩個(gè)部分來(lái)介紹MaxCompute湖倉(cāng)一體 。
一、什么是 MaxCompute 湖倉(cāng)一體二、湖倉(cāng)一體成功案例介紹

一、什么是 MaxCompute 湖倉(cāng)一體 湖倉(cāng)一體的整體架構(gòu) , 主要面向數(shù)據(jù)分析師 , 數(shù)據(jù)科學(xué)家以及大數(shù)據(jù)工程師來(lái)使用 。 主要應(yīng)用的業(yè)務(wù)有Machine , 非結(jié)構(gòu)化數(shù)據(jù)分析 , Ad-hoc/BI , Reporting和Learning等等 。 在整體架構(gòu)中 , DataWorks作為數(shù)據(jù)統(tǒng)一開(kāi)發(fā)管理的平臺(tái) , 主要負(fù)責(zé)數(shù)據(jù)安全 , 開(kāi)發(fā)IDE , 任務(wù)調(diào)度和數(shù)據(jù)資產(chǎn)管理等綜合工作 , 確保平臺(tái)穩(wěn)定運(yùn)行 。

如上圖所示 , 在整體架構(gòu)中 , 我們首先將數(shù)據(jù)湖集群和MaxCompute數(shù)倉(cāng)集群的網(wǎng)絡(luò)打通 , 然后將存儲(chǔ)層的數(shù)據(jù)打通 , 確保智能Cache , 冷熱分層 , 存儲(chǔ)優(yōu)化和性能加速 。 在計(jì)算層 , 我么實(shí)現(xiàn)了DB級(jí)元數(shù)據(jù)的透視 , 避免數(shù)據(jù)孤島 。

DataWorks統(tǒng)一了各種數(shù)據(jù)資產(chǎn) , 比如E-MapReduce , CDH HBase , CDH Hive和AnalyticDB for等 。 不但能在數(shù)據(jù)地圖中看到全域的數(shù)據(jù)資產(chǎn) , 而且還支持從數(shù)據(jù)源里抽取元素與信息 。

在阿里內(nèi)部 , 我們實(shí)現(xiàn)了一定程度的數(shù)據(jù)民主化 。 現(xiàn)如今 , 阿里集團(tuán)內(nèi)部所有的表 , 員工都能夠看到表名稱(chēng)和的元數(shù)據(jù)信息 , 以及信息的安全等級(jí) 。 DataWorks作為中臺(tái):可以從列表中支持的數(shù)據(jù)源采集數(shù)據(jù) , 納入平臺(tái)管控 。

目前 , 統(tǒng)一的表級(jí)、字段級(jí)別數(shù)據(jù)血緣就現(xiàn)有的產(chǎn)品能力 , 只能局限于單一引擎內(nèi)部的跨血緣 。 預(yù)計(jì)明年能夠?qū)崿F(xiàn)跨引擎的數(shù)據(jù)血緣 。

在單一引擎內(nèi)部 , 可以?huà)燧d多個(gè)hadoop集群 , 實(shí)現(xiàn)統(tǒng)一引擎的對(duì)接與管理 。

DataWorks作為統(tǒng)一的數(shù)據(jù)開(kāi)發(fā)平臺(tái) , 能夠?qū)C的任務(wù)和hadoop任務(wù)混編在一個(gè)流程中 。 不但可以統(tǒng)一臨時(shí)查詢(xún)?nèi)肟?, 發(fā)送給不同的引擎 。 而且可以將不同的引擎作業(yè)混合調(diào)度 。 比如數(shù)據(jù)集成作業(yè) , MaxCompute作業(yè)以及Hive作業(yè)等 。

二、湖倉(cāng)一體成功案例介紹 某互聯(lián)網(wǎng)游戲公司的廣告算法團(tuán)隊(duì)是湖倉(cāng)一體主要客戶(hù) , 主要應(yīng)用是機(jī)器學(xué)習(xí)DW+MC+PAI+EAS在線(xiàn)模型服務(wù) 。 該團(tuán)隊(duì)的自服務(wù)程度高、需要一站式的機(jī)器學(xué)習(xí)平臺(tái) 。 而Hadoop集群有多團(tuán)隊(duì)共用 , 使用集群管控較嚴(yán) , 無(wú)法短時(shí)間支撐大workload的創(chuàng)新業(yè)務(wù) 。 基于以上需求 , 我們通過(guò)湖倉(cāng)一體 , 將新業(yè)務(wù)平臺(tái)與原有數(shù)據(jù)平臺(tái)打通 , 即PAI on MaxCompute+DataWorks 。 為客戶(hù)提供了一站式機(jī)器學(xué)習(xí) , 模型開(kāi)發(fā)、模型發(fā)布 , 大規(guī)模計(jì)算等能力 , 提升了團(tuán)隊(duì)的工作效率 。

數(shù)禾公司通過(guò)引入MaxCompute作為計(jì)算引擎的數(shù)據(jù)中臺(tái) , 不但讓數(shù)據(jù)湖計(jì)算自由流動(dòng) , 而且解決了先前異構(gòu)計(jì)算引擎存儲(chǔ)管理 , 元數(shù)據(jù)管理和權(quán)限管理不同統(tǒng)一的問(wèn)題 。 不但提升了整體的工作效率 , 而且降低了運(yùn)維成本 , 起到了降本增效的作用 。

上圖是數(shù)禾公司構(gòu)建的基于MaxCompute+DLF+EMR的湖倉(cāng)一體架構(gòu) 。 底層是OSS數(shù)據(jù)湖存儲(chǔ) , 我們通過(guò)DLF構(gòu)建了元數(shù)據(jù)管理 , 數(shù)據(jù)血緣管理 , 數(shù)據(jù)權(quán)限管理 。 通過(guò)JindoFS+MC的方式 , 實(shí)現(xiàn)了數(shù)據(jù)的冷熱分層和本地緩存 。 我們結(jié)合MaxCompute和EMR , 成功實(shí)現(xiàn)了智能數(shù)據(jù)構(gòu)建與數(shù)據(jù)中臺(tái)管理 。

相關(guān)經(jīng)驗(yàn)推薦