对于大部分职场人士来说,当你们拿到一份日报周报或者月报时候,第一反应是去看整个报告中的结论,其实这是大错特错!你们是否遇到过当自己花了很多时间在解读一份数据分析报告的时候,突然间突然发现原来数据报告中的某些数据是错的,这个时候你们有什么感受?是不是想把这个报告的作者骂一顿?我之前在参加很多企业的工作例会的时候,这种场景反复的出现,主要原因就是,大家根本没有意识到在解读数据报告的第一步,其实是应该是去检查,发现数据报告中是否有错误或者不客观的数据。
商业报告解读和数据分析动作的第一步永远是数据的清洗和整理。昨天在群里面和大家聊这个问题的时候,有些人说我的数据是从公司系统导出来的,没有问题,肯定是真的;或者说我的数据是某个权威机构发布的,也不会有问题的。说这种话的人一般太年轻了,这是一个人艰必拆的过程,这是一个多么痛的领悟的过程,我曾经在数据分析师的圈子里面做过一个调查数据分析师的十大伤心事件,这一条排在第一,话不多说上图。
问题来了:你中枪几条?
所以建议大家今天看完这篇文章之后,把你的公司的一些日报周报月报,等数据拿出来,再看看,看看是否也有一些不正确或者是客观的数据,做一个深度练习题。
需要我们判断是否正确的数据和信息包括:
1,你公司内部的各种商业报告,日报周报月报,营运报告,销售报告,商品报告,生产报告都通通归到这个范畴。
2,来源于外部渠道的行业相关报告,统计数据,平台数据等。比如你的客户提供给你的竞争对手数据。
3,互联网上的一些数据和信息。相信大家有共识,互联网上一些假的数据,假的信息非常之茂盛。其实很容易理解,很多互联网的数据都是基于PR为目的来发布的,不是为了给你看真实的数据,而是为了打广告,从而获得关注、传播和流量。例如每年的双11,各大公司纷纷公布自己的实时销售数据,其实这些数据背后都是经过各种处理、加权、筛选后才给大家看的。
4,信息也需要甄别真假。我们重视数据,但往往忽略了对信息的判断。在互联网时代数据是一种信息,信息背后也是数据,他们是互相交融的,同样在互联网上也充斥着这种虚假的信息。例如微博、朋友圈经常见有人发丢失的小孩,丢失的准考证,传言谁又收购了谁,谁又即将破产等等,其实这里面很多信息都是虚假的信息。
虚假的数据还会来源你日常的工作和生活中,和客户的谈判,和领导的交流,我闺蜜的窃窃私语......这里面有大量的信息也需要我们去进行有效的判别。例如你的男朋友彻夜未归,你当然需要去判断他的解释是否是真实,这也是属于这个范畴。所以我们可以从日常生活中的方方面面去锻炼自己识别假数据和信息,不客观数据和信息的能力。一个人能力的高低,其实从某个方面来说是取决于他对数据和信息处理能力的高低。
所以解读数据报告的第一步其实是判断报告中数据的真假,一般来说数据报告的真假识别有两种方法逻辑法和数字规则法,今天讲逻辑法。
逻辑法包括看数据报告中的极值、平均值、中位数、众位数、空值、重复值、异常值等方法。
01 极值法
极值法有包括极大值和极小值,有时候助理给你的报告多输入了一位数字或者点错了小数点都很容易看出来的,在常态报告中这样的数据会显得特别突兀,比较容易看出来。
极值法主要是针对报告中容易出现的低级错误的一种判断方法,大家加强练习把它变成一种看报告的习惯。
02 平均值法
这是一种比较大众化的方法,平均值在我们的工作中无处不在,也可以说无孔不入。平均值判断数据真假的方法是两个层面,第一,总体的平均值大于个体的平均值。第二,平均值有误导,报告中不适合用平均值的方法。
大家看这张图,你能在30秒内找到问题错误的数据吗?为了迷惑大家,数据比较多,其实平时你们看的数据报告也差不多这样的数据量吧?
你花了几秒找到错误的数据?
相信眼尖的小伙伴一样就能看出其中的问题呢,全国的销售同比增长和全国的退货率这两个数据是错误的,所有区域的这两个数据都小于全国平均数据,这怎么可能呢?这就是总体平均值大于个体平均值的情况,偶尔在一些奇葩报告或助理手抖的时候也会出现。如果你曾经遇到过,那就恭喜你中奖了。
第二平均值有误导的显现这是普遍出现的问题,不是所有数据都适合用平均值这个指标的,例如全国平均工资这个数据,每年的春夏之交的时候,有关部门都乐此不疲的公布这个数据,然后全国人民都吐槽说自己的工资被增长了。是的,平均值有自己的适用范围,当个体数据呈现正态分布(知识点,大家可以自行展开学习)的时候才有效,然后我们国家的工资收入两级分化实在太严重,平均值有误导有被富豪们拉高的趋势。
再举一个极端的平均值的例子,假定某个公司有两个员工,月工资8000元和6000元,当然平均工资就是7000咯。有一天老板激励这两个员工说:“下月开始我们公司要提高平均工资水平,平均工资必须达到1.5万元”。这两个下属高兴死了,坐等涨工资。然而过了一个月老板请来了一个CEO,月工资3.1万元,三个人的平均工资正好1.5万。
再说一个可能是真实的案例,数年前,当房价如火箭般蹿升时,某位官员却说要在一年内将**城市的房价降下来,一年后当地的房价真的“如愿以偿”的被降下来了,背后的秘密就是平均数,只不过之前的数据只是城区的平均房价,一年后把郊区的房子加入数据池,这样的平均房价不降都难。
其实这些把戏都是数据的处理伎俩,在解读数据报告的时候我们不能简单的只看平均值,有的时候还必须要看中位数和众位数。如果对方只是给到你平均值也一定要问一下这个平均数包括哪些对象(人货场逻辑),企业平均工资是否包含CEO?企业平均同比增长是否剔除一些异常值。
03 中位数
指一组数据最中间的数字,例如7,10,100(奇数个数时),中位数为10。如果是7,10,20,100(偶数个数时),中位数15(中间两个数字的平均值)。当数据两级分化严重的时候,中位数比较能反应数据真实的一面,靠谱一些。在每年我的一个数据产品《年度目标制定模板》中,我们采用了上市公司财报数据作为参考,其中同比增长用平均值就有问题,有些公司由于发生了重组等状况,同比增长数据大的可怕(有基数太小的原因),所以我一律采用中位数作为参考值。
例如17年第一季度所有上市公司的平均同比增长是167.3%,然而中位数只有17.4%的同比增长,显然后者更有意义。
04 众位数
指一组数据中出现次数最多的数字,它比较反应大多数人的状况,所以叫众位数。善于数据忽悠的HR会在招聘的时候用平均工资,在给老板汇报工作的时候用中位数或众位数工资,以期达到不同的目的。
再把平均值、中位数、众位数再做一个梳理,在平均工资这个指标上,这三个指标大概呈现如下图的排列(图片来自于网络)。如果你想报喜不报忧,你会选择汇报哪个数据?
当然统计局只公布平均工资其实还有一个技术问题,计算平均工资只需要企业提供工资总数和员工人数即可,但是要统计中位数、众位数则需要企业提供完整的职员收入明细,这其实是有难度的,没有想象中那么简单。
对于以上四个方法,如果只是一份数据报告还比较简单,通过肉眼或者简单的计算就可以得出这四个数据。当数据量比较大的时候(如基础数据上万行)肉眼就不管用,此时可以使用excel自带的函数处理:最大值:max(),最小值:min();第n大值:large(),第n小值:small()。如某个区域最2大值,第5小值这两个函数就可以派上用场了;平均值:average(),中位数:median(),众位数:mode()。
05 异常值
对业务丰富的人来说,看数据报告的时候是有第六感觉,有些数据从逻辑上不能马上判断是否正确,但是冥冥之中就是觉得这个数据有问题。例如下图是某公司上个月各分公司HR提报的离职率数据,表面上看这些数据没有问题。但是对于老江湖的你可能一眼就能看到那两个扎眼的7.9%和一个7.8%,因为在你的企业有个规定分公司月离职率大于或等于8%要扣分公司HR经理的绩效奖。所以,懂了吧?
当然这只是怀疑,疑似有问题,不代表真正有问题。 但是关键数据这道门槛确实是很多数据要做手脚绕开的动力。 例如企业规定,零售卖场月目标完成90-99%营业员按2%提成,100-110%按4%提成,100%就是一个关键点位,如果你本月拼死拼活只能完成98%,你会怎么做? (大家可以讨论一下你们知道的那些招儿)所以当某个店铺最终完成100%或101%的时候,你就可以有理由怀疑一下了。
06 重复值
一个数据报告中出现多次重复的数据,可能是碰巧,也可能是做表的时候忘了删除,还可能是有鬼。例如下面这经典的一个神样的数据:我国城镇登记失业率,它竟然12个季度没有任何变化,都是神奇的4.1%。数据来自于统计局公告。
重复数据如果出现在同一个表或图中比较容易识别,另外两种情况重复就需要考验读图者的记忆力或知识储备了。
A、和以往的报告重复。作为销售主管上个月你汇报给经理的客户拜访率是45%,本月的月工作总结仍然是45%,这就值得怀疑你根本没有去改PPT数字的动作,都在敷衍。
B、和其他人的报告重复。作为销售人员,有些报告互相借鉴是常事,但是你可以借鉴报告的形式,但是千万别借鉴报告中的数据啊,这很容易被你们的老大看穿的。一个真事儿,当年我在做快消管一个城市的时候(long long ago,九几年的事情),一个同事就借鉴了我的一份销售月报,当然他把其中的一些数据也借鉴过去了。后果是他被警告,我被批评,我多冤啊?!