除了数据泄露之外,大数据技术如果在使用的过程中,没有边界的限制,很有可能会对大数据的使用者形成一个“认知壁垒”,这对于使用者来说,也是一个潜在的风险。所以,在大数据的落地应用过程中,应该让大数据使用者更多地了解大数据技术的细节,让大数据的参与者共同推动大数据的合理发展。我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。
大数据的概念和应用,到底是什么?
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特征应该有以下几个方面(4V)。首先是量特别大(Volume),现在的数据计算单位,已经从GB到达了TB、PB,甚至是EB了;其次是多样性(Variety),绝大多数大数据是非结构性的,其种类十分复杂,我们现在的技术手段还没法对此进行处理;再次是速度(Velocity),数据产生和传送的频率非常快;最后是价值(Value),从大量的低质量、低价值的数据中获取知识,犹如从大海中捞针,获取数据成本很高,但有待挖掘价值大。
大数据的应用很广泛,下面就是几个例子:洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。
梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。如果说上述例子距离我们有点远,那么我们在说说身边发生的事情。拿今日头条来说,也许你今天点开了某个标题的信息,明天你就有可能受到类似内容的消息推送,这就是基于大数据的推送。比如你在某购物网站上下单买了某一款衣服,接下来你就会在其他网页弹出的广告中发现类似的产品,这也是大数据使然。
网络上有很多大数据应用的例子。也许下面这个笑话也说明了大数据的应用目前已经无所不在。某比萨店的电话铃响了,客服人员拿起电话。客服:XXX比萨店。您好,请问有什么需要我为您服务 ?顾客:你好,我想要一份……客服:先生,烦请先把您的会员卡号告诉我。顾客:16846146***。客服:陈先生,您好!您是住在泉州路一号12楼120x室,请问您想要点什么?顾客:我想要一个海鲜比萨……客服:陈先生,海鲜比萨不适合您。