随着人们收集的数据在以指数速度增长,数据处理技术也以相应的速度发生着变革。来自国际数据公司IDC的报告显示,2012年全球数字内容的总容量将会增至27亿TB,比2011年增长率48%,预计2015年将会达到80亿TB,那将会是多么大的数据量啊。
来自各种网页、博客和社交网络消息以及其他各种数据源的结构化和非结构化的企业数据涌动着一场数据浪潮。例如,目前在世界范围内,不计其数的数字化传感器分布在各种工业设备、汽车、电表和装运箱中。这些传感器能够测量并传送位置、运动、震动、温度、湿度甚至是空气的化学变化等各类信息。如今,数据是大商业应装备的武器。想沃尔玛和科尔士百货公司这样的零售巨头通过分析销售、价格、经济、人口统计及天气数据来为不同连锁店铺量身定制销售组合、判断商品减价的最佳时机。
像UPS这样的物流公司能够从卡车运送时间及交通模式中挖掘数据来调整线路。由新兴的业务和技术交织而成的一整套生态系统正在迅速壮大,这印证这一个新的事实:为了便于更好地管理数据,提供数据存储、数据挖掘、数据聚合服务的公司已层出不穷。然而,这个生态系统还在不断发展,他到底会发展成什么样子目前尚不明朗,我们拭目以待。
尽管大数据早已数显多时,但在利用大数据的过程中如何收集数据并未数据分析做好准备,依旧是最大的问题。不同的系统采用不同的格式存储数据,即便在同一家公司里也是如此。在保留有价值的信息的前提下,收集、标准化、清洗非规范数据仍是核心的挑战。
当前,几家技术服务提供商正在使用Hadoop来攻克这一难题。Hadoop是一个由谷歌的MapReduce和GFP文件系统衍生出来的开源软件框架。它把任务分割成较小的子任务,并通过Map操作将其发送至集群中的各个节点,然后在一台主节点上通过Reduce操作合并各节点返回的数据而得到最终计算结果,于是原先的网格计算技术便在与计算时代被赋予了新的生命力。过去很多难题如今依然存在,我们的技术现在也刚好满足大数据分析的需求。然而,大数据的目标也在不断变化着。
未来的挑战会更多,未来的解决方案也会更多。大数据前途一片光明,今后的技术定会使数据利用变得更加轻松。例如,Hadoop正在汲取其他技术的额又是,如高速数据分析,从而使得并行计算、内存计算和具有耕地成本的固态磁盘驱动器成为可能。
在内存中进行数据挖掘的速度极快,节省了从硬盘中检索信息的时间消耗,于是公司搜集、分类和分析数据的速度就会大为提高。内存计算技术的美好前景令企业跃跃欲试,比如,T-Mobile正在使用SAP的HANA从本公司店铺、文本消息、客服中心的3000万名美国顾客身上挖掘数据,以便为顾客定制个性化套餐。
有了SAP系统,T-mobile过去需要一周才能完成的任务,现在3个小时就可以完成。如果一家公司能够利用这类功能更快定制更明智的决策,那么相比其他对手而言,它的竞争优势是不言而喻的,在很短的时间内,Hadoop已经从当初一个默默无闻的消费者互联网项目一跃成为IT企业注目焦点。
Hadoop的设计正式为了处理海量的非结构化数据,不过就现状而言,Hadoop个性化定制服务严重不足,起开放源代码远远不能满足企业关于安全、管理、效率等方面的需求。企业若要部署大规模的Hadoop集群,就需要雇佣能够解决大量不一致性问题的IT专家,为此企业将付出高昂的代价。企业现在能否采用Hadoop主要取决于IT项目所能拿到的实际预算。
大数据的真正价值在于它可以提供大量有用的数据,用于描述计算机硬件发展的摩尔定律也适用于大数据分析,因此未来大数据将会带来以指数速度增长的数据,并大大提高BI价值的实现速率。不论是对地理位置和零售数据进行关联,还是运用患者数据来预测公共健康趋势,亦或对全球气候趋势进行分析,都在利用着充斥于我们生存世界中的数据。有效率地管理大数据也许会使商业界焕然一新。
上一篇:大数据洞察
下一篇:大数据解开人类基因的秘密