平行坐标图——对大数据“降维攻击”

楼主
我是社区第82056位番薯,欢迎点我头像关注我哦~

        Parallel Coordinate(平行坐标图)是一种用来呈现多变量,或者高纬度数据的可视化技术, 用它可以很好的呈现多个变量之间的关系。平行坐标图是最著名的可视化技术之一,也是可视化学术论文中最常见的主题。虽然其中大量的线段最初看起来令人费解,但它们是理解多维数值数据集的一个非常强大的工具。

        通常描述平行坐标的方法是讨论高维空间,以及这种技术如何平行地布置坐标轴而不是相互正交。下面是具体的数据表。表中详细描述了从1970到1982年间发布的汽车型号,包括它们的里程数(加仑)、气缸数、马力、重量以及它们被生产的年份等等。


        现在想象一下,把表中的每一列都映射到下面图像中的垂直轴上。每一个数据值都会附着在坐标轴的某个位置,位于底部的最小值和顶部的最大值之间。然而,纯粹的点的集合不会非常有用,因此我们将属于同一记录(行)的点与点之间连接起来。这就产生了类平行线的混杂特征。


        通过查看这个可视化图表,您可以了解很多有关数据的信息。气缸之所以突出,是因为它只有几个不同的值。气缸的数目只能是一个整数,这里不超过八个,所以所有的行都必须经过一个明确的点。这样的数据通常不适合平行坐标。但如果是一个或两个坐标轴有这种情况,问题不大。

        在每加仑汽油能行驶的英里数MPG和气缸之间,你可以看出,八缸汽车相对于六和四缸的一般有较低的里程。如果跟着线看它们是如何交叉的,可以发现很多交叉线是反向关系的标志,图形显示出这样的规律:越多的气缸,越低的里程。

        汽缸和马力之间的相关性更为直接:汽缸越多就意味着更多的马力。当然,这里也有一些交叉线,所以更多的气缸并不总是意味着更多的能量,但总的趋势显然是存在的。在马力和重量之间,情况是相似的:马力越大一般意味着车越重,但当然也有一些价值的分散。还有一个例外,一个高马力八缸汽车是非常轻的。仔细找一找可以发现那个离群值。

        最后,重量和年份之间的线交叉很多,这表明多年来汽车变得更轻了。你也可以很容易地看出,年轴只记录了少量不同的数值,类似于气缸。虽然这是一个非常简单的示例,但它显示了大多数数据集中的典型结构。

        除了阅读平行坐标的一些经验外,使用这种技术来了解数据集的最佳方法显然是交互的。平行坐标系中的主坐标称为“刷”,看下面的图像应该很明显。为了做到这一点,我们来看看所有的轴。



        在这里,我在年轴上刷了1980年到1982年的区间。结果是线条的一部分被刷成了黑色,其余部分仍然以灰色为背景。看看从右到左的轴,你可以看到,在这个选择中的汽车模型几乎都在重量范围的下半部分,而它们都是在马力的下半部。气缸的分布也很有意思:在这个选择中,似乎只有一个八缸的汽车,其他的都是六缸或以下。里程数通常也高于所有汽车的平均值。


        刷1970至1972年产生一个非常不同的形象:重量,电力等都四散分布,里程大多在下半部。虽然预计会有更高的价值,但有一点很有趣,那就是十年伊始就有相当多系列的汽车,而不仅仅是重型的八缸汽车。过去几年的趋势是朝着更轻、效率更高的汽车发展。当然还有更多关于平行坐标图交互的用法:你通常可以重新排列轴来比较不同的分类信息,或者同时在把不同的轴上刷一把,亦或者翻转轴(图像顶部的箭头表示轴的方向),等等。

        除此之外,开发者大江东去通过封装国内著名图表库,支持基本平行坐标图与地图或散布矩阵的组合图。




        高维数据展现利器,大数据量分类分析的最佳展示方式,平行坐标图,即刻起支持免费下载体验试用。https://market.fanruan.com/plugin/681




编辑于 2018-2-28 11:09  
分享扩散:

沙发
发表于 2018-1-22 15:40:54
板凳
发表于 2018-1-23 11:07:19
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表