新知一下
海量新知
6 2 9 8 7 7 7

数据不能随便平均和求和,这些陷阱你还不知道吗?

DataHunter | 数据分析和商业智能服务提供商 2022/04/09 20:34

导语: 数据在日常工作当中的重要性已经不言而喻,越来越多的分析文章也告诉我们一些简单的数据分析方法。但是(敲黑板),使用这些方法时也要注意有一些我们平时容易忽略的点,今天小编就为大家总结那些我们平时可能常用,但数据有效性会打折扣的小陷阱吧。

不是什么情况都可以 平均的

这里先举个例子说明下:

对于一个新推广的的网站:

网站平均访问时长:12秒;用户平均访问页面1.2个。

这个是不是就可以说明用户主动浏览其他页面,但是我们这时候看下页面浏览pv、访问时长vt和访客uv的分布图:

新知达人, 数据不能随便平均和求和,这些陷阱你还不知道吗?

这个时候你就会发现你被平均数带到坑里去了。除去第一天的高效推广,第二天和第三天的数据简直惨不忍睹。这时候的平均数是没有意义的~

那么问题来了,什么时候平均数可以代表整体的情况?

答案是 当数据为正态分布时 ,就可以用平均数代表整体的情况了。

数据的分布为长尾分布时 ,我们可以 选取数据比较集中的部分进行分析

数据样本大小不同,结果迥异

举个现实生活中的例子:

在2008年奥运会上,姚明的三分投篮命中率为100%,科比的三分投篮命中率为32%。那么我们是不是说姚明的三分投篮命中率要比科比高了?

并不能这么说,因为那届奥运会,姚明只投了一个三分,科比投了53个三分。

决定样本量大小的因素有:

总体大小

总体内部差异程度。

所以在抽取样本的时候,尽可能地多覆盖,尽可能找差异程度大的用户。

新知达人, 数据不能随便平均和求和,这些陷阱你还不知道吗?

比率对比有条件

现有两个广告素材A和B,要测一下它们谁更能吸引用户转化,评比的指标是转化率。(转化率=转化数/曝光数)

为保证实验公平,它们都设置了相同的预算额度,并且都在中午12点开始投放,然后到了晚上12点同时关闭。

这样跑了半天,两组广告也都基本花完了预算,结果发现:

A一共曝光6500次,转化了70个用户,转化率是1.077%;

B一共曝光6200次,也转化70个用户,转化率是1.129%;

看到结果后,一般人的第一反应都会认为:B素材的转化率更高。

但是实际上A的效果更好。

为啥呢?

即使是相同的广告,在不同的时段也会有不同的转化率。一般来说,下午的转化率是低于晚上的,因为大部分人白天都有事情,不太容易被转化,而到了晚上,大家都有空了,所以更容易被转化。

可能有人会说,你说的对,但跟这次投放实验有啥关系呢?

从数据后台看了素材的来量情况——A素材下午转化50个,曝光5000次,晚上转化20个,曝光1500次;B素材下午转化20个,曝光2200次,晚上转化50个,曝光4000次。

其实不管是下午还是晚上,A的转化率都是更高的。而你之所以认为B更高,主要是因为B在晚上跑出了很多量,误以为它更厉害…

新知达人, 数据不能随便平均和求和,这些陷阱你还不知道吗?

与此相类似的指标还有

转化率、留存率、合格率、负债率、投资回报率等等

那么如何解决这个问题呢,其实很简单,就是要区分要素条件,不能只进行简单的加减乘除,还要考虑到具体的数据条件和事实全貌~

当然,有兴趣或理解有困难的童鞋,也可以去了解一下辛普森悖论。

新知达人, 数据不能随便平均和求和,这些陷阱你还不知道吗?

但总结的点是相同的,即根据具体特征合理划分,对比才是有意义的哟~

相关 ≠因果

相关分析很常见,我们在看到数据上升或下降之后,非常急迫的想要知道是什么因素导致了这种情况。于是兴冲冲的分析完相关之后发现,因素A和因素B是相关的,那么就果断的判断了他们的因果关系~

案例摆上来~

“电影《芳华》的观众比《战狼2》的观众消费了更多的热饮”,所以电影《芳华》更适合推广热饮广告

但事实是,事件A和事件B有相关关系,有可能有好几种原因:

1、事件A引起了事件B;

2、事件B引起了事件A;

3、事件A、B其实八竿子打不着,但是事件C会引起A,也会引起B;

4、事件A、B真的没什么关系,只是刚好凑巧数据有相关性。

说到底数据之间真实的关系需要更多的数据和业务来支撑和证明,不要轻易下判断~

数据分析师:巧用工具、提防陷阱

数据分析师的工具有很多,EXCEL、BI、Python、R、SPSS等等,好的工具可以给我们很多的帮助。 DataHunter 自主研发的业务驱动型BI产品 Data Analytics ,可以帮忙我们分析师快速进行数据分析和可视化,通过探索式分析能力解放做表时间,让我们有更多的时间可以分析问题、结合业务,从数据中发现价值,规避数据陷阱。

新知达人, 数据不能随便平均和求和,这些陷阱你还不知道吗?

Data Analytics 无需事先设想图表类型,拖拽即可获取可视化图表。看板上的图表可以进行协同过滤,轻松应对灵活多变的可视化报表需求。无需事先建模,无需预计算,即可实现自由的数据维度钻取。

新知达人, 数据不能随便平均和求和,这些陷阱你还不知道吗?

Data Analytics 帮助分析师节约时间,摆脱大量无意义的作图做表时间,将大量时间放到分析业务、理解业务、发现价值、规避数据陷阱上,从而实现分析师的能力升级和价值重塑。

新知达人, 数据不能随便平均和求和,这些陷阱你还不知道吗?

结语: 当然,数据的背后存在一个故事,但工具是不会理解的。这就是为什么需要我们分析师或者信息沟通者用可视化和情境化的方式使故事生动有趣。

喜欢我们的内容就点关注吧~ 和我们一起学习和分享那些职场数据小知识~

更多“数据分析”相关内容

更多“数据分析”相关内容

新知精选

更多新知精选