大数据下统计抽样所面临的挑战
来源:互联网  日期:2015-10-13
  • 分享到QQ空间

19世纪以来,当面临大量数据时,社会都依赖于采样分析。以前我们通常把这看成是理所当然的限制,但高性能数字技术的流行让我们意识到,这其实是一种人为的限制。与局限在小数据范围相比,使用一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节——大数据让我们更清楚地看到了样本无法揭示的细节信息。


比如,通过个人搜索、购买等行为预测行业趋势,数据的覆盖面不可能达到百分百,这类应用中大数据本身就是样本,但是数量够大,不用像传统抽样那么需要经过精心的挑选;面向个人服务的大数据分析,如大数据时代中的飞机误点预测,大数据的完整已经足够了,无需抽样。








其次,在越来越多的情况下,使用所有可获取的数据变得更为可能数据量的大幅增加会造成结果的不准确性,与此同时,一些错误的数据也会混进数据库。我们从不认为这些问题是无法避免的,而且也正在学会接受它们。这就是由小数据到大数据的重要转变之一。但是在传统抽样调查中,一些错误的数据是应该尽量避免的,毕竟抽样是以前数据汇总及整理受技术限制下而出现的折中处理方案。


另外,如果大数据已经是研究的总体而非大样本,那么很多算法都没价值了,因为很多算法都基于统计学的核心思路(假设检验)而衍生的(通过样本估计总体)。








最后,在面对大数据处理时,一些学者认为分类与聚类应该比抽样更有效果,一旦涉及抽样,就会涉及到样本的代表性问题,毕竟随机抽样在现实中还是很难实现。大数据的潜在价值就在于数据之间的潜在关联性与未知性,如果一旦抽样,就会失真。

    • 分享到QQ空间
综合指数
  指数名称 数值 幅度 详细