首页 > 手机 > 配件 > Spark和Hadoop的区别,spark和hadoop的区别

Spark和Hadoop的区别,spark和hadoop的区别

来源:整理 时间:2022-04-07 17:37:29 编辑:华为40 手机版

Spark能代替Hadoop吗?

Spark和Hadoop的区别,spark和hadoop的区别

根据现有的发展,目前spark还不能完全代替Hadoop。我们知道Hadoop包含三个组件yarn,hdfs,MapReduce,分别对应解决三个方面的问题,资源调度(yarn),分布式存储(hdfs),分布式计算(mapreudce)。而spark只解决了分布式计算方面的问题,跟MapReduce需要频繁写磁盘不同,spark重复利用内存,大大提高了计算效率,在分布式计算方面spark大有取代MapReduce之势,而在资源调度,和分布式存储方面spark还无法撼动。

hadoop与spark的区别是什么

Spark和Hadoop的区别,spark和hadoop的区别

谢谢邀请!请看下面这张图:狭义的Hadoop 也就是最初的版本:只有HDFS Map Reduce后续出现很多存储,计算,管理 框架。如果说比较的话就 Hadoop Map Reduce 和 Spark 比较,因为他们都是大数据分析的计算框架。Spark 有很多行组件,功能更强大,速度更快。关注我了解更多大数据分析技能。

在hadoop和spark之间如何取舍?

Spark和Hadoop的区别,spark和hadoop的区别

其实这两个工具之间一般并不存在取舍关系。业界一般会结合试用这两个工具。hadoop基于集群存储和分析调度的工具包,大家常用的有hdfs,mapreduce,yarn,属于平台基础设施,主要负责海量数据存储和并行计算调度。而spark是个大数据快速分析工具,一般实在hadoop基础上运行(虽然也可独立运行),通过hadoop的yarn调度,实现海量数据的流式处理。

MapReduce和Spark的区别是什么?

谢邀回答首先分别来说一下两者MapReduce 是hadoop 的分布式运算编程框架核心功能将用户编写的逻辑代码和自带组件整合成一个程序,并发运行在hadoop集群是上,核心组件是mrAppmaster mapTask ReduceTaskSpark是mapReduce的替代方案,兼容HDFS、Hive,可融入hadoop的生态系统两者区别1.spark比MapReduce要快基于内存的运算,比MapReduce快100倍以上基于硬盘的运算,快10倍以上2.spark支持流式和离线两者运算MapReduce只支持离线运算3.MapReduce本身没有资源调度系统,必须运行在yarn等资源系统上spark本身集成资源调度,以standalone方式可运行在自身的Master 和worker上,也可以运行在yarn上篇幅有限就先介绍到这里,欢迎大家留言评论。

大数据Spark技术是否可以替代Hadoop?

Spark技术从之前和当前的技术路线上看不是为了替代Hadoop,更多的是作为Hadoop生态圈(广义的Hadoop)中的重要一员来存在和发展的。首先我们知道Hadoop(狭义的Hadoop)有几个重点技术HDFS、MR(MapReduce), YARN。这几个技术分别对应分布式文件系统(负责存储), 分布式计算框架(负责计算), 分布式资源调度框架(负责资源调度)。

我们再来看Spark的技术体系 ,主要分为以下:- Spark Core :提供核心框架和通用API接口等,如RDD等基础数据结构;- Spark SQL : 提供结构化数据处理的能力, 分布式的类SQL查询引擎;- Streaming: 提供流式数据处理能力;- MLLib: 提供分布式机器学习常用的算法包;- GraphX : 提供图计算能力从上面Spark的生态系统看,Spark主要是提供各种数据计算能力的(官方称之为全栈计算框架),本身并不过多涉足存储层和调度层(尽管它自身提供了一个调度器),它的设计是兼容流行的存储层和调度层。

也就是说, Spark的存储层不仅可以对接Hadoop HDFS,也可以对接Amazon S2; 调度层不仅可以对接Hadoop YARN也可以对接(Apache Mesos)。因此,我们可以说Spark更多的是补充Hadoop MR单一批处理计算能力, 而不是完全替代Hadoop的。【关注ABC(A:人工智能;B:BigData; C: CloudComputing)技术的攻城狮,Age:10 】。

spark真的要取代hadoop了么,还有阿里的flink未来会是一种趋势么?

大家好,我是LakeShen作为一个软件开发工程师,我从事的方向主要是大数据方向,结合我的工作经验,我个人认为,Spark不会完全取代Hadoop,Hadoop还有很多其他方面的大数据组件,这些组件是Spark所没有的,同时,Flink在未来的发展,会作为实时计算方面的一种发展趋势。下面来说一下我个人的看法:Flink未来的发展首先,Flink是什么?Flink一种流式处理的实时计算引擎,它消费的数据可以来自Kafka、MetaQ等消息中间件,旨在降低数据计算的延时,使得我们可以实时监控我们业务相关的指标信息。

Flink 目前作为国内最火的一款实时计算引擎,国内有很多互联网大公司都使用Flink进行实时计算,阿里的Blink(Flink 阿里内部版本)、腾讯、今日头条、美团等。Flink 天然的状态管理,使得其能够应用于公司的各种有状态的实时计算。下面来看一下Flink Github上面的信息:从上图可以看到,关注Flink的人数达到了9929位人数,同时,每天都有很多用户关注Flink。

根据Apache 软件基金会2019年的财报,Flink持续活跃,其社区邮件列表在所有开源项目活跃度第一。这也意味着,Flink 目前在实时计算方面非常的火热。在加上阿里在Flink 1.9版本开源了很多 Flink SQL方面的特性,我相信,在未来,Flink在实时计算方面,是一种发展趋势。Spark相对于Hadoop的优势Spark本质也是一种大数据计算框架,它相对于Hadoop最重要的优势,我个人认为是Spark能够将中间计算的结果放在内存中,而Hadoop的中间结果只能放在磁盘上。

Spark充分的利用的计算机内存的优势,在数据量非常大的情况下,访问计算机内存的速度肯定要比访问磁盘快的多。一个离线任务,使用Spark几分钟就能跑完,而使用Hadoop可能需要几十分钟。时间上面的延迟,业务同学是肯定不会容忍的。同时,用户在开发Spark任务时,由于Spark 代码开发的便利性,用户几行代码就可以开发出Spark任务,但是Hadoop任务你需要编写Mapper类、Reducer类。

这极大的增加了开发同学开发任务的复杂度。所以,我个人认为,在离线计算方面,Spark在未来必然会取代Hadoop。Spark相对于Hadoop的不足Hadoop主要由三方面构成,MR计算模型、Yarn资源管理框架、HDFS分布式文件存储。虽然Hadoop在离线计算方面相对于Spark较慢,但是其在资源管理和分布式文件存储方面做得非常完善,很多公司不会为了计算快而完全放弃Hadoop,Spark只是一款大数据计算框架,它没有自己的资源管理框架和存储。

Spark的资源管理使用的是Hadoop Yarn,底层的文件存储,使用的Hadoop HDFS。Spark的优势只是其比Hadoop在离线计算方面速度快,但在其他方面,比如资源管理等,根本没有任何优势。总结所以,我个人认为,未来在离线计算方面,Spark必然会代替Hadoop作为很多大数据公司的首选。

但是由于Hadoop其底层的资源管理框架Yarn和文件存储HDFS已经非常完善,所以互联网公司还会使用Hadoop,但会使用Spark来进行离线数据计算。同时,Flink未来在实时计算方面肯定是一种发展趋势,在加上国内阿里的大力推广和运营,我相信Flink以后发展会越来越好。我是LakeShen,如果你觉得我的见解对你有帮助的话,其可以点个赞或者关注我吧,我会一直持续分享我在科技方面的见解,感谢。

文章TAG:SparkHadoopsparkhadoop

最近更新