首页 > 科技 > 问答 > 科技知识 > 大数据处理框架 哪些,Python 大数据处理框架

大数据处理框架 哪些,Python 大数据处理框架

来源:整理 时间:2022-04-24 16:19:56 编辑:科技知识 手机版

以Hadoop体系为首的大数据分析平台:Hadoop体系的生态圈也不断的变大,目前围绕Hadoop体系的大数据架构大概有以下几种:传统大数据架构其定位是为了解决传统BI的问题,简单说,数据分析的业务没有发生任何变化,依然保留了ETL的动作,将数据经过ETL动作进入数据存储。适用场景:数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。

流式架构在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。

适用场景:预警,监控,对数据有有效期要求的情况。Lambda架构Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性,因此Lambda最外层有一个实时层和离线层合并的动作,此动作是Lambda里非常重要的一个动作,大概的合并思路如下:适用场景:同时存在实时和离线需求的情况。

Kappa架构Kappa架构在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。适用场景:和Lambda类似,改架构是针对Lambda的优化。

Unifield架构Unifield架构更激进,将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。

适用场景:有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划。相关:舆情大数据系统架构设计与实现:https://www.toutiao.com/i6537119210336682510/大数据架构的分析应用:https://www.toutiao.com/i6613946595891216910/。

java大数据主要学习哪些知识?

大数据是我的主要研究方向之一,我使用Java的时间也比较久,多年前(2008年)还出版过Java的书籍,所以我来说一说Java与大数据的结合都需要学习哪些内容。大数据平台与Java首先Java是一门编程语言,而大数据则是一个产业领域,简单的说做大数据的相关研发可以使用Java语言来实现,Java是大数据领域的一个重要工具。

大数据行业涉及到诸多岗位,这些岗位主要围绕数据展开,包括数据采集、数据整理、数据传输、数据存储、数据安全、数据分析、数据呈现以及应用等。这些不同的岗位有不同的职责,所使用的工具也不尽相同。在数据采集端往往与物联网对接,当然也有大量的传统ERP系统,这部分岗位要对数据库知识有全面的了解。目前有不少ERP系统都是采用Java语言开发的,当然了解Java开发知识对这部分岗位也是有一定帮助的。

在数据的存储端往往涉及到云计算平台,云计算跟大数据的关系十分密切,主要涉及到数据的分布式存储和分布式计算。一般情况下,云平台是大数据的重要支撑,云计算平台为大数据提供硬件资源,做云计算研发的Java程序员主要围绕资源管理展开工作,严格的说这部分开发属于云计算研发的范畴。Java做大数据主要的应用在数据分析和呈现上,使用Java做算法实现,做落地应用。

这部分知识涉及到Java基础语法、JavaWeb开发、Java数据结构、Java分布式开发等几大方面的知识,另外需要掌握Hadoop及Spark平台的开发API。需要掌握的Java内容Java基础语法部分围绕类、对象、属性和方法展开,包括封装、继承、多态等几个核心概念的掌握。Java Web开发则包括Servlet、JSP、JavaBean等基本的Web组件,以及SpringMVC框架等知识的掌握。

Java分布式开发则要掌握RMI,以及Java分布式框架的应用。由于Hadoop平台本身就是基于Java构建的,所以一般在Hadoop平台下使用Java也是一个常见的选择。Hadoop平台为Java语言提供了一系列API,以方便Java在Hadoop平台下的场景研发。我在头条上写了关于Java的系列文章,包括Java基础开发、Java并发、Java分布式开发和JavaWeb开发,感兴趣的朋友可以关注我的头条号,相信一定会有所收获。

大数据的框架主要学习和使用什么呢?

你说的应该是大数据平台中的主流框架,我列举一下:(一)Hadoop生态圈HDFS:分布式文件系统,解决大数据的存储Yarn(MapReduce):分布式计算框架,解决大数据的计算Hive:Hadoop中的数据分析引擎,支持SQLHBase:基于HDFS的NoSQL数据库ZooKeeper:分布式协调服务,可以用于实现HA(高可用架构)其他(二)Spark生态圈Spark Core:Spark的核心,用于离线计算Spark SQL:Spark的数据分析引擎,支持SQL语句Spark Streaming:Spark的流式计算引擎,但本质依然是离线计算MLlib:机器学习框架(三)Flink生态圈Flink DataSet:Flink批处理(离线计算)APIFlink DataStream:Flink流处理(实时计算)APIFlink Table

文章TAG:数据处理框架Python

最近更新

  • 手机里的图片都在哪里?,你们手机里的照片都存在哪里

    手机空间释放后,上传到腾讯相册不显示占用空间,手机操作过程中也不会出现卡顿现象。清理手机垃圾时,腾讯相册不会有垃圾,所以整体上没有发现内存占用现象。我给大家分享一个储存照片的好方法 ......

    科技知识 日期:2022-07-20

  • 人为什么要有价值观,一个人存在的价值是什么

    树立正确的人生观和积极的价值观,首先要树立正确的是非观。决定一个人价值观的标准不一样。根本区别在于各自的创造力、精力,差异化的社会分工,利益分配平衡中相对统一的需求。一个人的认识和 ......

    科技知识 日期:2022-07-19

  • 为什么黄牛抢票用什么软件,为什么还会有黄牛抢票

    黄牛使用的抢票软件是独立软件。最后黄牛用的抢票软件和我们的差别很大。我们平时用的软件都是市面上常用的。这些抢票软件都是很多人用的,服务器平均分配后自然减少了我们每个人的份额,这也是 ......

    科技知识 日期:2022-07-18

  • 为什么苹果亮银贵,为什么苹果的数据线这么贵

    你知道为什么苹果的数据线贵但是容易断吗?苹果手机最大的优势就是iOS系统和苹果的A系列处理器。关键是最便宜的苹果数据线官方售价149元。按照大部分苹果数据线不到一年的使用寿命,光是 ......

    科技知识 日期:2022-07-18

  • 谷歌眼镜显示屏在哪里,哪些VR眼镜值得买

    VR眼镜的分类目前VR眼镜主要分为VR盒子VR一体机和PCVR。去的太早了,先发明骑行用的智能眼镜还好,但还没消失。第二代企业版谷歌眼镜高通SnapdraonXR1平台运行,不出售 ......

    科技知识 日期:2022-07-18

  • 上海哪里体验一加手机,一加手机真的快不行了吗

    说到一加,总会有一大批人说一加手机只活在互联网上。比如现实中没有一加手机的踪迹。一加定位,首先你必须是网络爱好者,否则一般没机会看到。其次,一加一直以来都是精品旗舰策略,每一次新机 ......

    科技知识 日期:2022-07-17

  • 为什么冬季雾霾最严重怎么办,夏天难道就没有雾霾吗

    为什么冬天有雾霾,夏天没有?看来雾霾的主要原因还是气象条件。其实冬天的雾霾已经比以前轻很多了。所以直到现在,冬天还是有雾霾。个人认为和农民烧麦秸没关系。入秋以来,随着来自中国的西北 ......

    科技知识 日期:2022-07-17

  • 苹果为什么好用,苹果的系统那么难用

    我用的是苹果安卓,我觉得苹果不好用。我承认苹果系统很流畅,但是旗舰安卓机型还可以,更重要的是也很耐用。苹果系统真的没有安卓系统自由。换了苹果第二天就开始想念安卓了,应用很忙。微信视 ......

    科技知识 日期:2022-07-17