在公司的第三年,公司要转做web的BI展示界面,我帮公司用svg做了两个展示组件,心里还是美滋滋的。随着时间的推移、电商的发展,大数据、云计算似乎成了每个互联网公司对外宣传的标准说法。如果不讲点这些概念,似乎给人感觉缺少些逼格。记得10年在公司的一次培训上,有个同事问,云计算是不是你搞出来的,就因为我姓云。
听到这个问题,我哭笑皆非。大数据这个概念喊了这么多年了,很多人还是不清楚大数据指的是什么?为了回答好这个问题,我还去专门搜索了大数据的概念。老实说百科的解释,连我从事了这么多年互联网的人,也没看懂。“大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
”什么是大数据?大数据说的直白点,就是运用一套技术手段,把数据变成信息和知识的过程。数据对我们来说是没有价值的东西,我们要把数据加工成信息或者知识,才能被人类理解。举个例子:公司一天的考勤数据是意义不大的东西,但是我们通过一月考勤数据的分析和比较,我们发现张三这个员工老是迟到。那么,张三老是迟到这个信息就对公司的管理有帮助了,领导需要去了解下,是不是张三家有什么事?或者张三最近出现别的状况?大数据的“大”又如何理解呢?所谓“大”,一层含义指数据的体量大,在数据库时代数据以GB为单位,但在互联网时代以TB为单位,数据的体量升了一个数量级。
另一层含义指数据形式的多样化。在传统BI应用中,数据大多是存储在关系型数据库中,但在互联网时代,数据的形式变得多样化了,例如:文本、视频及数据库。明白了大数据的概念,我们下来看,大数据包含哪些内容。大数据的内涵大数据从技术的角度去看,包含两大分支:数据分析和数据挖掘。数据分析是对历史数据的分析,为管理提供辅助决策信息。
数据挖掘是研究趋势和未来的问题,主要应用在预测方面。从业务的时效性要求去看,分为:实时在线分析系统和离线分析系统。例如:网站的实时用户区域分佈狀況就是实时分析應用;2019年全國各省GDP排名分析就是離綫分析應用。从大数据项目的过程看,大数据包含:数据采集、数据收集、数据转化与存储、数据建模分析、上层应用展示等。
大数据的难点,在于海量数据的分析,这又涉及到海量数据存储及分析架构等问题。按照Hadoop的技术体系来讲,flume用来收集和转化存储在服务器各处的日志及数据,存储在以hdfs文件系统或者hive或者hbase等数据仓库中,再利用hadoop架构的规范,编写mapreduce作业,再把分析结果展示给用户。
当然,这里面设计到数据分析的各种算法。大数据相关的工作岗位下面介绍下,大数据相关的核心岗位:业务专家或者顾问:为大数据提供研发方向和确定研究主题,并为技术人员提供业务支持。数据分析师:从事数据收集、整理、分析并依据数据做出评估和预测的专业人员。数据挖掘工程师:从海量数据中发现规律,需要较好的算法和数学基础。
可视化工程师:提供美观、便于人们理解的分析的结果展示界面。维护工程师:负责服务器环境的配置、搭建和运维。每个公司采用的大数据技术线路不同,工作岗位会有所差距。感兴趣的朋友,可以自己去了解下,现有的几种大数据方案。随着5G网络的建设,接入网络的iot设备会越来越多,互联网所积累的数据,还会成级数增加。在未来几年,大数据行业依然是朝阳行业,需要的大数据人才会越来越多,希望本文对有意愿加入大数据行业的朋友,有所启发和帮助,也希望大家能对大数据的概念,有更清晰的认识。
大三要分方向了,其中有大数据方向,不知道大数据好不好学,主要学什么?
作为一名IT行业的从业者,同时也是一名计算机专业的研究生导师,我来回答一下这个问题。首先,选择大数据方向是没有问题的,但是学习大数据是具有一定难度的。当前正处在大数据时代,大数据未来将得到广泛的落地应用,所以从未来发展的前景来看,大数据方向是不错的选择。学习大数据需要具备三方面的基础知识,分别是数学、统计学和计算机,另外还包括一众辅助学科,比如社会学、经济学等等。
所以大数据涉及到的内容还是比较多的,而且也具有一定的难度。对于计算机专业的学生来说,学习大数据方向通常需要学习以下几个方面的内容:第一:编程语言。大数据领域的编程语言比较常见的有Java、Python、Scala、R等,其中Python和R语言在数据分析领域应用比较多,Java语言在大数据应用开发和大数据平台开发领域应用比较多,Scala则主要应用于Spark平台。
第二:大数据平台。目前比较常见的大数据平台是Hadoop和Spark,不少商用大数据平台通常也是基于Hadoop构建的,而且Hadoop平台对于计算机硬件的要求比较低,比较适合初学者和大学生群体。另外,大数据平台的组件比较多,需要一个系统的学习过程才能逐渐掌握。第三:大数据分析。数据分析是大数据专业要重点学习的内容,目前大数据分析有两种主要方式,一种是统计学分析方式,另一种是机器学习分析方式。
以机器学习为例。首先,你需要掌握一些常用的算法,包括决策树、朴素贝叶斯、支持向量机等。然后用编程语言实现算法,再对算法进行训练和验证。整个过程还是比较艰难的。目前,场景分析是大数据的常见应用。我从事互联网行业多年,现在也在读计算机专业的研究生。我的主要研究方向集中在大数据和人工智能领域。我会陆续写一些关于互联网技术的文章。有兴趣的朋友可以关注我,相信我会有所收获。