第33天知识点:如何制作箱型图?
今天和大家分享一个让你一眼就能看出数据分布特征的神奇图表--箱型图。
箱型图,常见于品质管理,不仅不受异常值的影响,能直观准确的描绘出数据的离散分布情况,还能帮助你快速发现异常值。
而且,通过比较不同组的箱型图,你还可以了解各组数据之间的相似和差异之处。
下面我们就来看看如何在FineBI中制作箱型图吧。
小张是一家百货公司的区域主管,手底下管理了3家门店,一百多名员工。一季度结束了,小张想看看不同门店员工的薪酬分布情况,门店之间的薪酬差异大不大?各个门店是薪酬高的员工多,还是薪酬低的员工多?
我们模拟了一张3家门店所有员工的薪酬明细表。
1、打开FineBI-我的分析-新建分析主题
2、导入数据-选择数据:本地Excel文件-上传数据-点击确定
3、新建组件-图表类型选择:箱型图-将字段分别拖入如下位置
至此,我们就可以看到不同门店员工的薪酬分布情况。
操作很简单,对不对?
可以看出三家门店员工薪酬差距还是比较大的。
但仅仅制作出这个图并不是我们的最终目的。
我们需要从图中获得更多的有用信息。
这就要求我们对箱型图的特征有所了解。
箱型图的高度在一定程度上反映了数据的波动程度:
当箱型图很短时,表示数据分布集中,数据间的差异较小
当箱型图很长时,表示数据分布分散,数据间的差异较大
箱型图的中位数所处的高低位反应了数据的偏斜程度:
当中位数接近底部时,表示数组中的大部分数据比较小
当中位数接近顶部时,表示数组中的大部分数据表较大
箱型图的须线长短反应了数据分布的偏态情况:
上、下须长指中位线到上、下边缘之间的长度,须长越长,方差越大
当上、下须大约等长时,数据呈对称分布
当上须长、下须短,说明中位数接近箱型图底部,数据呈右偏分布
当上须短、下须长,说明中位数接近箱型图顶部,数据呈左偏分布
结合箱型图的特征,我们可以进一步看出以下特征:
上海门店:员工之间薪酬差异很大,且中位数接近底部,说明大部分员工薪酬水平还是偏低,高薪资的员工只有少数。
北京门店:整体呈正态分布,中位数也是三家门店最高的,说明北京门店平均薪酬水平更高。
青岛门店:门店内员工薪酬水平接近,但薪酬平均水平是三家门店中最低的,虽然接近上海,可薪酬上限却受到一定限制。
不知道有没有小伙伴发现一个问题:
上海门店员工最低薪酬8900元,最高薪酬30546元,但上海门店的箱型图下边缘却是-13068.5元,是个负数,是不是计算错误?
这里可以告诉各位小伙伴,计算结果是没有问题的。
一组全是正值的数组中,为何箱型图的下边缘却是个负数?
这是因为在箱型图中,下边缘并不是数组的最小值,而是通过公式计算出来的数值。
这个大家一定要注意。
那下边缘的计算公式是什么呢?
下面,就带大家详细了解一下箱型图的构成。
箱型图主要由以下几部分构成:
异常值:那些超出箱子范围的特殊值,一眼就能看出来!
上边缘和下边缘:箱子的上下边界,但并不是数据的最大最小值。
中位数:箱子的中心线,代表数据的平均水平。
上四分位数和下四分位数:箱子的两条分割线,帮你快速了解数据的分布情况。
上须线和下须线:中位线至上、下边缘的距离,可以判断方差大小。
具体如下:
理解即可,不用死记硬背。
纯理论有些枯燥,可以结合下面两个例子来加深理解。
理解上图中的例子,你就完全掌握箱型图的构成及计算逻辑了。
接下来,挑战来啦!
小张想在上面箱型图的基础上继续分析,看看上海门店少数薪酬高的员工具体是哪几位。
假设你是小张,你会如何来解决这个问题呢?
其实很简单:
将图表类型修改为自定义图表,然后,关键的一步来了,将纵轴上的【薪酬】字段复制一份,接着将图形属性下的其中一个【薪酬】的图形类型修改为【点】。
效果是不是就出来了。这样,从图中一眼就能看出上海有几名员工的薪酬水平明显高于其他员工。
我们将鼠标放置在圆点上,就可以锁定到具体某一位员工,并能显示出该员工对应的信息。
其实,箱型图的制作并不难,难的是在于理解其构成及指标的含义。
另外,关于箱型图值得注意的几点:
1、箱型图的上下边缘并非数组的最大或最小值。
2、箱型图不受异常值的影响,可以准确的描绘出数据的离散分布情况。
3、箱型图上下四分位数的计算口径并不是唯一的,FineBI中关于上下四分位数的计算口径简单理解就是:中位数把数组分成两个50%,下四分位就是把前50%,分成两个25%,上四分位就是把后50%,分成两个25%。
好了,今天的学习内容就到这里,赶快动手练习吧! |