采样样本的变化颠覆数据科学

许永硕 2019/05/15 04:42

利用数据创造价值的实践先进国家很早就开始了。

比如利用数据优化生产排程,利用数据优化库存的实践在上个世纪八十年代就开始了。而且先进企业利用数据挖掘,利用ODS创造了大量的价值。

中国企业对数据的价值,除了银行、电信等特别有钱的行业,在很早就开始实践外,大部分企业是借助于大数据概念的流行,才对数据科学有了认识。

但因为大数据、数据科学的概念一下子进入中国,很多人分不清大数据与传统数据科学的区别,事实上现在大部分大数据的介绍,都是传统数据科学,比如BI,数据挖掘的知识。唯一提到的差别就是那几个V,以及数据存储由原来的数据库,变成了Hadoop。

大数据就这么简单吗?其实大数据对未来的颠覆在于采样范围发生了变化。

大数据概念之前,数据科学的研究,研究的是数据样本。也就是按一定比例挑选样本,这些样本因为要代表全部数据,因而样本的选择、样本的正确性要求非常高,因而采样标本的数据非常准确。

但大数据出现之后,实现数据的全部采样成为可能性,既然计算机可以采集并处理全部样本,以前的数据科学是不是会被颠覆?

既然可以全部采样,那么每个样品数据的准确性要求就不是特别重要了,这个时候利用全样本研究整体特性就成为大数据研究的重点。

既然每个数据不要求完全正确,因而大数据对数据的精准性要求不高,大数据的容错性就非常重要了。比如如果数据错误率是万分之一,假定有1亿条数据。如果传统千分之一采样,那么亿条数据需要采样10万,而出现错误可能是10条;但如果大数据全部采样,那么就会出现10000个错误数据,这样大数据应对错误数据就会成为常态。

采样比例的变化才是大数据对数据科学的颠覆。

许永硕
收藏 | 微信分享 微博分享 QQ分享 | 返回顶部