新知一下
海量新知
6 2 9 1 1 1 8

干货|供应链中的数据清理有哪些要点?

弘毅供应链 | 供应链管理知识传播,内容分享 2022/01/23 21:46

数据是数字化的根基,数据清理是数字化最基础的技术之一,各个行业都会用到它。供应链管理活动会处理大量数据,有许多数据清理的场景,今天就来聊一聊这个话题。

输入的是垃圾,输出的也是垃圾

相信许多小伙伴都听过这样一句话 “Garbage in, Garbage out” ,中文的意思是“输入数据是垃圾,输出的结果也是垃圾”。这个垃圾不是我们日常生活中的废弃物,特指无用的、错误的数据。为什么会是这样?这需要从数据处理的过程说起。

当我们从外部数据源获得数据后,根据一定的公式和模型对数据进行分析处理。源头是输入input,输出结果就是output。

我们可以把整个计算过程想象成一个函数公式,有些是无比复杂的计算,比如物料需求计算,已经不能依靠手工计算,必须依赖于MRP系统。

还有一些简单的线性函数,比如计算运输费用,一般会有一个基础起步价,然后根据距离乘以每公里的收费标准,得出这趟的运费是多少。

在这过程中,A点和B点之间的距离是一个变量X,根据计算公式得出费用Y的值。 如果我们获得的X值是错误的,那么计算出的Y值肯定也是错误的 。输入的源头数据是错的,输出的结果必然也是没用的,这就是Garbage in, Garbage out的意思。

数据错误的情况在供应链日常工作中比比皆是,比如盘点的时候清点错了,输入了错误的库存数量,那么库存总数和金额就是错的。我列举了几种典型的错误类型,欢迎大家对号入座。

1.错误的数值

表格中的无效值,比如加了空格和句号。有时候数据还会出现负值,例如库存,它怎么会是负数呢?可能是扣账的时候有一笔收货没有入库,就出现了负值。

有些数值出现在了文本单元格里,自然就不能被统计到。还有合并单元格,会导致数据统计错误或缺失。

2.重复项

有些编号应该是唯一的,比如货物追踪号,一票货对应的是一个追踪号码,是一对一的关系。我们得检查有没有出现重复的情况。

3.人为操作错误

只要是手工输入的,就存在一定出错的概率。输入数据的人手指一滑,碰到了其他的键,就输错了。或是在排序的时候没有全部选中单元格,还有可能是在用公式的时候输错了。

4.其他

有些数据和大部分数据差距过大,比如在一个产品系列中,大多数产品单价在0.5元至10元之间,突然出现了一些超过100元的数据就很可疑。可能是系统里的报价前者是美元,后者是日元。

我们需要仔细地查看数据,每次可能都有新发现,那种感觉就像是哥伦布发现新大陆一样,总会给人惊喜。

如何发现错误数据

找出错误数据就像是在大海里捞针,如果没有合适的方法,可能看了半天数据只会看到满天的小星星。这里介绍几种方法供大家参考。

1.使用公式

首先要确保数据是有效的,因此要做一次的大排查,把数据中的无效值找出来。比如我们可以用求和或是查找的公式快速查看,根据公式结果判断是否有无效值。当一列数据求和结果为零时,说明这些数据格式不是数字。

如果想要把无效值抓出来,在Excel中可以用vlookup公式,如果返回值是“#N/A”,说明这个记录有问题,可能是输入错误,或是有空格。

2.使用目视化图表

用图表可以快速查看是否存在异常数据,比如用散点图和柱状图目测是否有特别离谱的数值。

新知达人, 干货|供应链中的数据清理有哪些要点?

在上图中,在Y轴上方有几个游离在大部队之外的数值需要重点看一看。

3.使用数据透视表

数据透视表汇总看异常,Excel中的pivot table也就是数据透视表是个很好用的工具。拖拽起来方便,而且容易理解。

新知达人, 干货|供应链中的数据清理有哪些要点?

上图中,从左边的原始表格汇总出来的数据存在两个错误点。首先是两个产品号ABC50535没有被汇总,说明其中一个的产品件号存在无效值。

其次,产品ABC35816汇总数量为零,但是左侧没有为零的数值,说明这个产品的库存数量单元格存在错误,可能是格式问题。

4.分析变异系数

使用变异系数反映数据离散程度,也叫离散系数。简单地说,在进行数据统计分析时,如果变异系数大于一定程度,比如大于1,意味着数据变化较大。这是进阶的内容,属于概率和统计分析的概念,具体就不在这里展开了。

有条理地清洗数据

找到数据问题点后,最后就是要做数据清理了。具体的方法有许多种,每个人都有自己擅长的方式。在这里我们就讨论一下通用性的原则。

1.先备份

以前我在打电脑游戏的时候,一般在和大BOSS决战之前都要先存档,万一打输了就调档,这样我就不会Game Over。

我们做数据清理之前也要先备份存档,万一没处理好,至少还有原始数据,否则后果不堪设想。

在做改动之前,我们一定要先把旧的文件存好,在Excel里另存或是复制。我们改动过什么,也要留下记录。

如果发现可疑数据,在清洗之前,需要和相关人员确认一下。比如价格汇率到底是美元还是日元,找到相关采购员问一下,确认后再进行修改。

盘点库存的时候发现可疑数据,先不要急着改,再去现场盘点一次,然后再根据实际情况修改。万一自己是错的,把数据改了岂不是太过草率?

2.做记录

一定要把我们发现的问题和采取的措施完完全全地记录下来。对于所有的改动,我们都要确保能解释清楚。

人的记忆力没那么好,好记性不如烂笔头,记录一下也没什么损失。以后万一有需要,我们还可以随时找到改动过的地方,撤销改动。所以说原始数据永远不要删,把它们复制一份保存好,把清理过后的数据用于以后的分析。

原始的数据绝没有我们想象中那样干净,需要花点时间进行清洗,然后才能用于下一步的整理、汇总和分析,并进一步提炼出洞察。我们要时刻对外部数据持有怀疑态度,警惕地观察一切不合理的数据。

更多“供应链”相关内容

更多“供应链”相关内容

新知精选

更多新知精选