Spark和Hadoop的區別,spark和hadoop的區別

Spark能代替Hadoop嗎?

Spark和Hadoop的區別,spark和hadoop的區別


根據現有的發展,目前spark還不能完全代替Hadoop 。我們知道Hadoop包含三個組件yarn,hdfs,MapReduce,分別對應解決三個方面的問題,資源調度(yarn),分布式存儲(hdfs),分布式計算(mapreudce) 。而spark只解決了分布式計算方面的問題,跟MapReduce需要頻繁寫磁盤不同,spark重復利用內存,大大提高了計算效率,在分布式計算方面spark大有取代MapReduce之勢,而在資源調度,和分布式存儲方面spark還無法撼動 。
hadoop與spark的區別是什么?
Spark和Hadoop的區別,spark和hadoop的區別


謝謝邀請!請看下面這張圖:狹義的Hadoop 也就是最初的版本:只有HDFS Map Reduce后續出現很多存儲,計算,管理 框架 。如果說比較的話就 Hadoop Map Reduce 和 Spark 比較,因為他們都是大數據分析的計算框架 。Spark 有很多行組件,功能更強大,速度更快 。關注我了解更多大數據分析技能 。
在hadoop和spark之間如何取舍?
Spark和Hadoop的區別,spark和hadoop的區別


其實這兩個工具之間一般并不存在取舍關系 。業界一般會結合試用這兩個工具 。hadoop基于集群存儲和分析調度的工具包,大家常用的有hdfs,mapreduce,yarn,屬于平臺基礎設施,主要負責海量數據存儲和并行計算調度 。而spark是個大數據快速分析工具,一般實在hadoop基礎上運行(雖然也可獨立運行),通過hadoop的yarn調度,實現海量數據的流式處理 。
MapReduce和Spark的區別是什么?
謝邀回答首先分別來說一下兩者MapReduce 是hadoop 的分布式運算編程框架核心功能將用戶編寫的邏輯代碼和自帶組件整合成一個程序,并發運行在hadoop集群是上,核心組件是mrAppmaster mapTask ReduceTaskSpark是mapReduce的替代方案,兼容HDFS、Hive,可融入hadoop的生態系統兩者區別1.spark比MapReduce要快基于內存的運算,比MapReduce快100倍以上基于硬盤的運算,快10倍以上2.spark支持流式和離線兩者運算MapReduce只支持離線運算3.MapReduce本身沒有資源調度系統,必須運行在yarn等資源系統上spark本身集成資源調度,以standalone方式可運行在自身的Master 和worker上,也可以運行在yarn上篇幅有限就先介紹到這里,歡迎大家留言評論 。
大數據Spark技術是否可以替代Hadoop?
Spark技術從之前和當前的技術路線上看不是為了替代Hadoop,更多的是作為Hadoop生態圈(廣義的Hadoop)中的重要一員來存在和發展的 。首先我們知道Hadoop(狹義的Hadoop)有幾個重點技術HDFS、MR(MapReduce),YARN 。這幾個技術分別對應分布式文件系統(負責存儲),分布式計算框架(負責計算),分布式資源調度框架(負責資源調度) 。
我們再來看Spark的技術體系,主要分為以下:- Spark Core :提供核心框架和通用API接口等,如RDD等基礎數據結構;- Spark SQL : 提供結構化數據處理的能力,分布式的類SQL查詢引擎;- Streaming: 提供流式數據處理能力;- MLLib: 提供分布式機器學習常用的算法包;- GraphX : 提供圖計算能力從上面Spark的生態系統看,Spark主要是提供各種數據計算能力的(官方稱之為全棧計算框架),本身并不過多涉足存儲層和調度層(盡管它自身提供了一個調度器),它的設計是兼容流行的存儲層和調度層 。
也就是說,Spark的存儲層不僅可以對接Hadoop HDFS,也可以對接Amazon S2; 調度層不僅可以對接Hadoop YARN也可以對接(Apache Mesos) 。因此,我們可以說Spark更多的是補充Hadoop MR單一批處理計算能力, 而不是完全替代Hadoop的 。【關注ABC(A:人工智能;B:BigData; C: CloudComputing)技術的攻城獅,Age:10 】 。

推薦閱讀