大数据估计也是允许不准确的
来源:互联网  日期:2015-10-13
  • 分享到QQ空间

在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的,而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。



对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。无论是观察天体的位置还是观测显微镜下物体的大小,为了使结果更加准确,很多科学家都致力于优化测量的工具。在采样的时候,对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。



历史上很多时候,人们会把通过测量世界来征服世界视为最大的成就。事实上,对精确度的高要求始于13世纪中期的欧洲。那时候,天文学家和学者对时间、空间的研究采取了比以往更为精确的量化方式,用历史学家阿尔弗雷德-克罗斯比(AlfredCrosby)的话来说就是“测量现实”。



我们研究一个现象,是因为我们相信我们能够理解它。后来,测量方法逐渐被运用到科学观察、解释方法中,体现为一种进行量化研究、记录,并呈现可重复结果的能力。罗德-凯文(LordKelvin)曾说过:“测量就是认知。”这已成为一条至理名言。培根也曾说过:“知识就是力量。”同时,很多数学家以及后来的精算师和会计师都发展了可以准确收集、记录和管理数据的方法。



19世纪,科技率先发展起来的法国开发了一套能准确计量时间、空间单位的系统,并逐渐成为其他国家普遍采用的标准,这套系统还为后来国际公认的测量条约奠定了基础,成为测量时代的巅峰。仅半个世纪之后,20世纪20年代,量子力学的发现永远粉碎了“测量臻于至善”的幻梦。然而,在物理学这个小圈子以外的一些测量工程师和科学家仍沉湎在完美测量的梦中。随着理性学科,如数学和统计学逐渐影响到商业领域,商业界更加崇尚这种思想。



然而,在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。



同时,我们需要与各种各样的混乱做斗争。混乱,简单地说就是随着数据的增加,错误率也会相应增加。所以,如果桥梁的压力数据量增加1000倍的话,其中的部分读数就可能是错误的,而且随着读数量的增加,错误率可能也会继续增加。在整合来源不同的各类信息的时候,因为它们通常不完全一致,所以也会加大混乱程度。例如,与服务器处理投诉时的数据进行比较,用语音识别系统识别某个呼叫中心接到的投诉会产生一个不太准确的结果,但也是有助于我们把握整个事情的大致情况的。

    • 分享到QQ空间
综合指数
  指数名称 数值 幅度 详细