數據湖對比分析,大數據平臺( 四 )


小公司限于人力有限 , 數據流的響應時間有可能是天級或小時級;大公司對數據流的響應要求極高 , 有可能是分鐘級、秒級甚至亞秒級 。很多朋友都發現 , 在今日頭條剛剛搜索過某一個內容 , 下一分鐘就能收到相似內容的推薦了 , 因為大數據開發工程師提供了這種秒級數據管道 。技能要求無論是大數據平臺開發工程師還是大數據開發工程師都對從業人員的“編程開發”和“大數據”大數據要求比較高 , 而且數據量越大的公司 , 對技能要求越高 。
公司一般要求工程師在Java和Scala語言上 , 基于Hadoop生態系統 , 構建實時或批量的數據流 。但公司與公司的差異很大 , 整個技術棧和工作內容與公司架構高度相關 。某招聘APP上對大數據開發工程師的技能要求:Java、Scala、Linux、Hadoop、Kafka、Spark、Flink等 。面試時一般會重點考察候選人對Google大數據三大論文的理解 , 即MapReduce、GFS和BigTable , 分別對應了開源的Hadoop MapReduce、HDFS和HBase , 這三篇論文也被稱為驅動大數據的三駕馬車 。
大數據平臺是什么?什么時候需要大數據平臺?

數據湖對比分析,大數據平臺


謝邀!最近我和我的團隊一直在做一些大數據相關的工作 , 我來回答一下這個問題 。首先是第一個問題 , 大數據平臺是什么?當我們說到一個平臺的時候 , 我們的意識里面往往就知道 , 這里面肯定不止一樣東西 , 它是很多東西的一個集合 , 大數據平臺也是一樣 , 首先如果用幾個字來描述它的話就是“它是一個數據解決方案” , 進一步解析就是:大數據平臺它是一個以分布式存儲為基礎 , 集成了數據獲取 , 數據清洗 , 數據流轉 , 數據分析 , 數據輸出等工具集的一個數據解決方案 。
它的核心使命是提供數據存儲和數據分析服務給目標客戶 。那么它的核心組成部分是什么呢?實現的方法有多種 , 我就舉一個最典型的大數據平臺結構作為說明 。目前無論是國內或者國外 , 應用最廣泛也是最典型的大數據平臺是以Hadoop為核心進行功能延伸的生態系統 , 業內把它叫做Hadoop生態 , 它開源并且免費使用 , 它長什么樣子?它的面目基本上是這樣:從上圖我們得知 , 它就是一套以Hadoop分布式文件系統為核心的數據處理工具集 , 目的是為了向用戶提供數據分析服務的一個集成解決方案 。
什么時候需要大數據平臺?簡單的說就是當數據總量大到傳統單機數據解決方面沒辦法存儲 , 分析 , 計算時就要用到大數據平臺 。舉例說 , 家用電腦目前一般是配置2TB大小的硬盤(存儲容量約等于于18個128G的iPhone) , 一般幾萬塊錢的商用服務器容量大約在32TB容量 , 高端的單機存儲器可以達到100TB以上 , 但是數據量如果再大比如上跳一個數量級1000TB,也就是1PB左右 , 單機系統就無能為力了 , 不單是存儲容量無能為力 , 計算能力也無法應對了 , 因為我們知道 , 單臺計算機的性能是有極限的 , 數據太多磁盤檢索讀取的速度就會變慢 , CPU和內存壓力也會變大 , 這個時候需要完成一個數據分析任務就要耗時很長 , 那么這個時候大數據平臺就派上用場了 , 大數據平臺的一個特性就是多臺計算機組成一個集群集體并行作戰 , 并且理論上可以無限拓展 。

推薦閱讀