尽管大数据的时代已经到来,各界也发现了大数据的巨大价值,但是大数据的研究还处在初始阶段。随着研究的不断深入,大数据所面临的问题也越来越多,如何让大数据朝着有利于全社会的方向发展就需要全面地研究大数据,以下是几种可能的大数据未来的研究与发展方向。
关系数据库和非关系数据库的融合众所周知,关系数据库系统在数据分析中占据着主要地位,但是随着后来半结构化和非结构化数据的大量涌现,关系数据库系统就无所适从了。而类似于 MapReduce的大数据处理工具在容错性、可扩展性、数据的移动性上明显优于关系数据库系统,但在处理数据的实时性能上,MapReduce与 RDBMS 相比还有一定的差距。关系数据库和非关系数据库各有所长, 如果在以后的大数据的研究处理过程中,能将关系数据库系统和分布式并行处理系统进行有效的结合,而不是将二者明显地区分开来,那么大数据的分析效率将在很大程度上得到提高。
数据的不确定性与数据质量大数据,顾名思义是数据量非常大,如何从这些庞大的数据量中提取到尽可能多的有用信息就涉及到数据质量的问题。在网络环境下,不确定性的数据广泛存在,并且表现形式多样,这样大数据在演化的过程中也伴随着不确定性。文献提到了网络大数据的不确定性,其实大数据的不确定性不仅仅适用于网络大数据,对一般大数据而言也存在这种不确定性。大数据的不确定性要求人们在处理数据时也要应对这种不确定性,包括数据的收集、存储、建模、分析都需要新的方法来应对。
这样也给学习者和研究者带来了很大的挑战,数据质量就很难得到保证,况且大数据的研究领域尚浅,本身就有很多亟待解决的问题。面对不断快速产生的数据,在数据分析的过程中很难保证有效的数据不丢失,而这种有效的数据才是大数据的价值所在 ,也是数据质量的体现。所以需要研究出一种新的计算模式,一种高效的计算模型和方法,这样数据的质量和数据的 时效性才能有所保证。文献中几位从事大数据研究的专家也强调了数据质量的重要性,中国工程院院士 、西安交通大学教授汪应洛认为,在大数据产业发展中,数据质量也是一大障碍,不容忽视,他说“数据质量是大数据产业这座大厦的基础 ,如果数据质量不高,基础不牢靠,大数据产业就可能岌岌可危,甚至根本无从发展。”所以处理好大数据的不确定性、提高数据质量是大数据研究中的重中之重 。
跨领域的数据处理方法的可移植性 大数据自身的特点决定了大数据处理方法的多样性、灵活 性和广泛性。而今几乎每个领域都有涉及到大数据,在分析处理大数据的建模过程中除了要考虑大数据的特点外还可以结 合其他领域的一些原理模型,如文献[46]提出的用来源于生物免疫系统的计算模型去处理大数据中的关键属性的选择。还有统计学中的统计分析模型,特别是对原始数据的统计和计量,音频、视频、照片等重要信息。广泛吸纳其他研究领域的原理模型,然后进行有效的结合,从而提高大数据处理的效率,这可能会成为以后大数据分析处理的重要方法。
大数据的预测性作用日益凸显提及大数据,它的作用自然是不言而喻,也有不少专家进行了总结,大数据有变革价值的力量、大数据有变革经济的潜力、大数据有变革组织的潜能。但是从很多大数据的应用案例分析不难发现,无论是大数据的研究者还是普通人,大数据给人们带来的最直接的利益就是对未来的预见。气象部门可以根据气象数据预测未来的天气变化;经销商可根据商品的销量 分析客户的喜好从而制定未来的采购计划及时调整经营模式,增加利润;通信部门通过对大数据的分析实时了解市场行情,从而作出合理决策。由已知推测未知,通过大数据可以提高对未知预测的可靠性和精准性,这对整个人类来说都是一种进步。