大家好,好久不见我又来刷存在感了。
有一阵没出周历图系列了,哎,最近实在太忙(lǎn),深陷一起离奇的法庭纠纷(画外音:滚!不就玩个逆转裁判吗)
好了,话不多说,来看我们今天的主角——相关矩阵图:
—嗯?不就是矩形块吗?就这都敢来招摇撞骗?
—且等等,这个图里还有玄机啊……
相关系数矩阵图常用于多变量的数据分析,当变量较多时,我们很难从一堆庞大的数字中快速获取信息。正因为如此,相关阵的可视化应运而生。图中的横纵坐标表示不同的变量,而中间的值表示两个变量间的相关度,位于对角线的值等于1。从矩阵图中,可以快速地看出不同变量的相关性,便于我们快速地了解数据集中的关联。
这个图在FR里有个付费的插件,嗯,就是付费的。叫马赛克图:https://help.finereport.com/doc-view-3173.html
我们使用BI学习班中最经典的案例之一:超市购物篮分析的数据集。还不熟悉这个案例的朋友可以去了解下,听听@bear9939 老师的精彩讲解,如何计算置信度、提升度、支持度。
不过,我们今天计算的是相关度,步骤有些不一样:
第一步,我们打开数据集,这是个超市购物篮数据集,每个订单id表示一笔订单,我们的目标是要找出订单内商品出现的关联性:
第二步,跟学习班的方法一样,我们把这个数据集复制一次,跟自身进行左右并集合并,连接字段为“订单ID”
第三步:将商品维度拖入分组,把“订单ID”求去重计数(嗯,是不是跟BI学习班的一模一样):
第四步:相关矩阵中一般要求数据显示百分比,我们需要将数据归一化(normalization)处理,在这我们采用最常用的归一化算法,将所有数据缩放至[0,1],计算公式为:
我们分别新建一列求关于商品维度的最小值、最大值
然后新增一列取名为归一化值,输入公式 (订单ID-最小)/(最大-最小)
第五步:后面就很简单了,新建仪表板,安装制作矩形块图的方式,把商品的两个商品维度分别拖入横纵轴,并都按商品名称降序排列,然后把归一化值拖入颜色和标签,这样就大功告成啦:
最后,本案例没有涉及负相关的情况,矩阵颜色因而略显单调,实际中我们碰到的数据集通常都比较复杂,构建的矩阵图往往是这样的:
照例附上数据集文件
超市购物篮.xlsx
(10.83 KB, 下载次数: 84)
,欢迎吐槽拍砖交流探讨。
然后,一人血书求FineBI出纵向图例、上方坐标轴……
编辑于 2020-5-13 14:05
|