开始着手处理大数据并不是一件困难的事情,很简单,收集一些大数据,让企业的分析专家团队开始探索这些数据可以提供些什么。企业没有必要一开始就设计一个具备生产级标准、持续的数据输入系统。企业索要做的仅仅是让分析专家团队先去切身接触那些数据,然后再开始分析探索工作。分析专家和数据科学家们会逐渐进入较色并完成他们的工作。
有一个古老的拇指法则:数据分析工作有70%-80%的时间花在收集和准备数据上面,而仅仅有20%-30%的时间花在分析本身上,在刚开始处理大数据时,这个比例估计更低。一开始,分析专家可能至少要花95%的时间,甚至几乎100%的时间去弄清楚某一种大数据源,然后才去思考如何利用这些数据做更多深层次的分析。
理解上述做法是非常重要的,弄清楚数据源的本质是分析流程中最重要的部分,反复地加载书记、检查他们的表现、调整加载过程,从而选择能够更好地服务于目标的数据,虽然看起来不那么吸引人、令人兴奋,但却是直观重要的。如果没有完成这些步骤,也就不可能进入后面的分析环节。
确定大数据中有价值的部分,并且确定如何最优而精确地获取这些部分,这一过程非常关键,可以预料到这一过程会花费很多时间,但即使在它上面花的时间超出了你的预期,也不要感到沮丧。在弄明白新数据源的过程中,企业的分析专家和其服务赞助商应积极地寻找代价小、见效快的方法。记得要向企业展示一些有价值的东西,并帮助人们理解所取得的进展,一个跨部门的团队决不能组件一年以后,还宣称他们仍在试图搞明白如何通过大数据来做一些事情,必须能够时不时地迸发出一些想法,即使这些点子很小,然后迅速地采取一些行动。
上一篇:智慧旅游:旅游大数据
下一篇:交通大数据