请上传宽度大于 1200px,高度大于 164px 的封面图片
    调整图片尺寸与位置
    滚轮可以放大缩小图片尺寸,按住图片拖动可调整位置,多余的会自动被裁剪掉
取消
凹凸数据(uid:839896)
【欢迎点我头像关注我】数据分析、可视化、方法论,一条龙服务! 职业资格认证:尚未取得认证
数据分析师,如何构建完整的指标体系?
大家好,我是小五🧐 掌握理论知识和编程知识可以被看作入职数据分析师的“敲门砖”。掌握了这些知识,表示候选人对于成为数据分析师有了良好的准备,可以说“万事俱备,欠东风”,而“东风”就是一些实际工作内容和相应的技巧。 数据人员如何创造价值   随着大数据的发展,公司的数据库中存储着大量的数据,这些数据大多是公司内部技术人员通过埋点获取的,也有些是通过第三方机构获取的。如何充分利用这些数据,创造价值,推动公司的发展,是数据分析师所应该思考的。 作为数据分析师,经常被问到: XXX数据最近上升/下降了,是什么原因造成的? 新上线的功能给业务带来的是正面影响还是负面影响 对于XXX,我们需要制定什么样的策略,完成KPI/OKR?  …… 解决业务方的问题,并提出建设性意见,就体现出了数据分析师的价值。 面对数据库中的海量数据,数据分析师首先要做的就是构建合理的指标体系或者模型,合理地“整理”这些数据。 指标体系可以分成两个部分——通用的规则和针对具体业务的特定规则;模型则包含了比较多的类型,如业务模型、数据挖掘模型等。 在构建好合理的指标体系或者模型后,接下来就可以通过报表或者数据看板的方式,对数据进行监控,并且制定相应的监控规则,根据监控结果实时调整策略。有了合理的监控规则和监控结果,下一步要做的就是将获取到的内容进行整合,输出完整的分析报告,或者调整相应的策略,继续追踪调整后的效果,真正指导业务的发展。 总结起来,就是: 基于历史数据和业务背景构建指标体系或者模型。 基于指标体系,监控线上业务数据并制定相应的监控规则。 输出数据分析报告或者提供可执行策略,推动业务的发展。 下面我们来详细介绍如何构建完整的指标体系。   完整的指标体系构建   在数据分析师的工作中,针对  某某App 或 某某功能模块 最近的用户量或者其他相关指标下降了,你会如何进行分析  等问题,最直接的解决方法就是建立完整的指标体系。 通过指标体系,能够很直观地发现问题所在,并且可以针对问题采取相应的措施。 Q1 :要构建一套指标体系,整体思路是什么? 构建指标体系应该“纵向”和“横向”相结合,纵向指的是梳理出分析问题的整个流程,比如对于电商产品,需要分析出用户从进入网站到最终下单的整个流程;对于工具类产品,则需要关注用户使用过程中的体验以及用户流失情况。 有了纵向分析的过程,还需要横向拓展不同的维度,如基于用户画像的人群分类、根据不同业务背景的时间拓展以及业务线的划分。 最后将纵向和横向的结果相结合,就得到了一套完整的指标体系。 Q2:用户行为的核心节点有哪些?如何有针对性地设计指标? 了解用户行为的核心节点,实际上就是纵向分析的过程。互联网公司大多针对C端用户进行分析,这里就以C端用户为例进行介绍。对于C端用户,核心的三个节点是新增、活跃、留存/流失,大多数分析都是围绕这三个节点逬行的,整个流程如下。 可以看到,针对新增、活跃、留存/流失这些节点,可以纵向设计出很多指标,但主要是绝对数量和百分比。 对于新增用户,指标有新增用户数量、新增用户留存率、新增用户活跃率等。 对于活跃用户,指标有活跃用户数量、活跃用户中的新增用户数量、活跃用户中 的老用户数量等。 对于老用户,指标有老用户螭、老用户老用户唤醒率等。 对于流失用户,指标有流失用户数量、流失用户与新增用户比率等。 这样就可以针对用户的整体行为节点进行比较完整的指标设计,其中活跃用户部分是需要重点关注的,通过对从新增到流失整个流程指标的构建,可以清晰地看出在哪个环节最终活跃用户数增加了或者减少了。 Q3:对于活跃用户,应该如何进行相应的指标设计及路径分析? 对于活跃用户,要研究其活跃行为,从而提高用户的体验。针对不同类型的产品,需要进行相应的细分设计。比如对于电商产品,需要关注的是从来访用户到用户最终成功支付的整个流程。 可以看到,针对这个流程的每一步都可以统计出相应的用户数量以及上一步的转化率,比如来访用户数量、点击用户数量、加入购物车用户数量、下单用户数量、支付用户数量、最终成功支付用户数量,以及各种转化率,如点击/曝光转化率、下单/点击转化率、下单/加购转化率、支付/下单转化率、成功支付/支付转化率。这些指标就构成了一个完整的纵向指标体系,通过这些指标可以清晰地看出哪个环节存在问题。 对于电商产品,除了要关心用户数量,金额也是要关心的指标。从加购开始,每个环节在用户数量的基础上都需要增加金额指标以及相应的客单价指标。 以上是对电商产品活跃用户的纵向分析。下面再举一个短视频的例子。 对于短视频,需要分为视频的观看者和视频的发布者两个独立的用户群体进行分析。对于视频的观看者,需要考虑的是各种行为数据,相对路径比较短。 针对用户的这些行为设计相关的指标,比如观看视频的数量、整体时长、点赞视频占比、评论视频占比等,这些指标刻画了用户观看视频的体验情况。 对于视频的发布者,则需要关注整个流程,看在某个环节的转化上是否存在问题,造成发布的视频数量减少。 以上就是构建指标体系的纵向部分,其中包括了用户从新增到流失/留存的整个流程,这是比较通用的指标体系建立方法。同时针对一些产品的活跃用户逬行了分析。大家在面试前需要对所要应聘部门的业务有所了解,梳理出产品中用户的生命周期以及活跃用户的行为情况。 Q4:有了明确的用户行为路径及相关指标后,如何进一步分析? 除了纵向分析,还需要横向分析,横向分析是指对于同一个指标,基于不同的维度进行相应的拓展,常用的维度包括时间维度和用户维度。 Q5:针对时间维度的分析,需要注意的点有哪些? 对于时间维度,常用的分析方法是关注最近一段时间的数据,时间的长短要根据业务的具体特性来确定。对于一些高频的App或者功能,通常关注最近1~ 7天的整体数据情况即可,也可以是自然周。对于一些相对低频的App或者功能,则需要将时间拉长,关注最近15天、30天、90天甚至更长时间的整体数据,也可以是自然月、季度甚至自然年。 另外,与时间维度相关的有同比和环比的概念。 因为单纯地关注一段时间的数据并 不能很好地看出趋势情况,需要与之前的数据逬行对比。对于同比和环比的概念,在实际应用中不需要逬行很明确的划分。常用的对比方法是对比当日与上日、本周与上周、本月与上月的数据。对于一些周期性比较强的产品,则需要先确定产品的周期,比如有些产品会受到周末的影响,此时比较合理的对比方法是用本日的数据与上周同一日的数 据进行对比;有些产品会受到大型节假日的影响,此时针对节假日数据,就需要与上一个大型节假日的数据进行对比。 对于一些对实时性要求高的产品,需要将数据指标细化到小时级别。处理后的时间维度分析方法如下。 除了时间维度,还有一种常用的拓展方法,就是基于用户画像的用户维度进行拓展。用户画像是互联网公司中常用到的分析工具,通过用户画像可以有效了解各个群体的行为情况,也可以基于用户画像拓展出相应的指标。 Q6:列举常用的用户维度拓展方法。 有很多通用的用户维度拓展方法,比如对于用户所在地,可以分为城市、省份,甚 至华东、华南等大区;对于用户的基本属性,可以分为年龄、性别、职业等;对于用户使用的设备情况,可以分为终端类型、客户端版本、厂商、机型等;对于新老用户,也可以拓展出一些指标。对于新用户,需要关注的是用户来源渠道,通常分为自然新增用户、活动新增用户、广告新增用户等渠道,通过对渠道的划分,可以在一定程度上避免 一些大型活动对新增用户分析带来的影响;对于老用户,根据用户的生命周期逬行划分, 通常分为有效用户、活跃用户、忠诚用户、沉睡用户和流失用户,可以对产品整体趋势 有一个清晰的了解。 梳理后的用户维度拓展方法如下。 以上纵向和横向两个方向讲解了如何构建一套完整的指标体系。在数据分析师岗位面试前,候选人需要对所要面试公司的产品有一定的了解,这样一方面可以进行有针对性的准备;另一方面也可提前构建起一套指标体系。下面通过问题对前面的内容进行总结。 Q7: XXX最近有所下降,如何进行分析? 针对这个问题,需要充分利用前面所讲的指标体系,按照如下步骤逬行分析。 (1) 梳理与该问题相关的流程,确定纵向指标体系。比如是支付金额有所下降,就需要梳理:曝光-点击-下单-支付这样完整的用户路径,以各个环节的转化率和用户量为核心指标。 (2) 针对核心指标,确定所要对比的时间维度,比如基于所要分析的产品确定与前一天或者前一周的数据进行对比,发现问题所在。 (3) 确定问题所在的环节后,针对该环节以用户维度进行拓展,如基本属性、所在地、设备情况、新老用户等,确定引起该问题的用户群体,并针对这部分用户逬行相应的策略调整。 除了上述问题,对于“新版产品或者某个运营活动上线后,如何评估效果”等问题, 也可以采用相同的方法进行分析,只做微调即可。总结起来,整个思路就是:梳理路径一 确定对比的指标一选取对比的时间维度-针对问题环节拓展用户维度。 ▼ 最后我们对于本篇内容进行总结。
终于有人把 数据可视化配色 讲明白了!
数据可视化的目标是传达来自数据分析工作流的关键结果。 虽然图表需要美观,但可视化的首要目标不是“高颜值”。   在数据可视化中使用配色应该是帮助传播关键发现,而不是成为某种艺术创作的一个环节。     — 规则1 —     在应该使用配色的时候使用,而不是在可以使用的时候使用配色 颜色的使用应该仔细斟酌,以传达关键的发现,因此,这一决定不能留给自动算法来做出。 大多数数据应该是中性颜色,如灰色,保留鲜艳的颜色以将注意力引向重要或非典型的数据点。   1991-1996年的销售额(百万美元)。 红色被用来引起人们对1995年异常低迷的销售的关注。 其他没有明显销售额变化的年份都是灰色的。     — 规则2 —     利用颜色对相关数据点进行分组   颜色可用于对相似值的数据点进行分组,并使用以下两个调色面板呈现这种相似性的程度: 顺序调色板由均匀饱和度的单一色调的不同强度组成。 相邻颜色的亮度变化对应于它们用于渲染的数据值的变化。       发散调色板 是由两个连续的调色板(每个调色板具有不同的色调)相互堆叠而成,中间有一个拐点。 在可视化具有两个不同方向变化的数据时,这种调色板非常有用。     下面左边的图表使用由单一色调(绿色)组成的顺序调色板来表示范围从-0.25到+0.25的值,而右边的图表使用不同色调的调色板来表示正值(蓝色)和负值(红色)。     2010-2019年美国人口的百分比变化。 由两个色调(拐点为零)的红色(蓝色)构成的发散配色方案比顺序配色方案更合适。   在右侧的地图中,仅根据颜色就可以立即识别正值和负值。 我们可以立即得出结论,中西部和南部城镇的人口减少了,东部和西岸的人口增加了。 这种对数据的关键洞察在左边的图表中并不是立竿见影的,不能用颜色本身来区分,而是必须使用绿色的强度来阅读地图。     — 规则3 —     对不相关的数据使用分类颜色   分类调色板来自不同色调但饱和度和强度相同的颜色,可用于具有完全不同来源或不相关值的不相关数据点的可视化。     顺序和发散调色板应用于通过编码定性值来呈现大小的变化,而分类调色板应用于通过编码量化值来呈现不相关的数据类别。       — 规则4 —     对数据项进行归类   虽然使用不同的颜色可以帮助区分不同的数据点,但一张图表最多只能包含6-8个不同的颜色类别,以便每个类别都容易区分。     前15个国家/地区服务的卫星数量   15个国家都使用不同的颜色,使得左边的图表难以阅读,特别是对于卫星较少的国家。 而右边的图表可读性更好,代价是丢失了卫星较少国家的信息,所有这些信息都被归类在“其他”中。   请注意,我们在这里使用了分类配色方案,因为每个国家/地区的数据完全不相关。 例如,印度的卫星数量完全独立于法国的卫星数量。     — 规则5 —   改变图表类型通常可以减少对颜色的需求   在前面的示例中,饼图可能不是最佳选择。 由此造成的类别损失可能并不总是可以接受的。 相反,绘制条形图时,我们可以使用单一颜色并保留所有15个数据类别。     前15个国家/地区服务的卫星   如果可视化中需要6-8种以上的不同颜色(色调),可以合并某些类别或浏览其他图表类型。     — 规则6 —     不使用顺序配色方案的场景   为了使顺序调色板的颜色细微差别很明显,这些颜色必须相邻放置,如下图所示。 当像散点图一样彼此分开时,细微的差别就变得很难理解了。   当数据点彼此不紧邻时,很难解释顺序的配色方案,如右侧的散点图所示。 这些颜色只能用于可视化相对值,如左图所示。   顺序配色方案的最佳用途是渲染值的相对差异。 它不适合绘制使用分类配色方案呈现的绝对值。     — 规则7 —     选择合适的背景   物体的感知颜色不仅取决于物体本身的颜色,还取决于其背景。 这导致我们就图表中背景色的使用得出以下结论: 按相同颜色分组的不同对象也应具有相同的背景。 这通常意味着背景颜色的变化必须最小化。     — 规则8 —     不是每个人都能看到所有的颜色    大约10%的世界人口是色盲,为了让每个人都能获得彩色信息图表,避免使用红色和绿色的组合。 下面显示的是三种不同色盲的人是如何查看同一张地图的。       结论 可视化的动力在于讲述数据背后的故事。 只有深思熟虑地运用色彩,才能帮助强化数据故事中的关键论点。
别找了,最全数据可视化配色指南在这
✦✧✧✧ 什么是色阶?   在数据可视化的过程中,我们离不开和颜色打交道。例如为不同类别的信息赋予不同的颜色,或是在地图中制作有梯度的色彩渐变。 如果你用颜色进行数据可视化,那么你用到的色相调色板和颜色渐变就会形成标注数据的色阶。这是因为二者都与数据有着对应关系:例如每一个色相对应着一个特定的类别,而每一种颜色对应着一个特定的数值区间。    而色阶又可以分为类别色阶、连续色阶和发散色阶,它们分别对应不同数据类型: 1)类别色阶 ●●●●● 所谓色相,就是我们五岁时就知道的“不同的颜色”:红,黄,蓝......这些颜色可以很好地用来为那些没有天然优劣之分的东西进行分门别类,比如国家、种族、性别、行业——这也是为什么用于分类它们的类别色阶也被称为“无序色阶”。 ⌂ FiveThirtyEight 图表图例中的色相   ⌂ The Economist 图表图例中的色相     小贴士:记得要给你的色相赋予不同的明度,这对于色盲读者来说尤为重要。 2)单一方向的连续色阶 ●●●●● 连续色阶就是由亮到暗或由暗到亮的渐变。它们能很好地把从低到高的数字数字化,比如收入、温度或年龄。 ⌂ New York Times 图表图例中的连续色阶   ⌂ Datawrapper 图表图例中的连续色阶   小贴士:你可以在你的连续渐变中使用一种色调(例如从浅蓝到深蓝色),但在这里展示的几乎所有的例子都使用了多种色调(例如从浅黄到深蓝色)。使用两种甚至更多的色调可以增加渐变部分之间的颜色对比,使读者更容易区分它们。  3)双方向的发散色阶 ●●●●● 发散色阶(也称为双极色阶或双端色阶)的颜色刻度和连续的颜色刻度是一样的-但不是单一从低到高变化,而是有一个明亮的中间值,然后向刻度不同色调的两端逐渐变暗。发散色阶经常被用来刻画消极/积极的价值取向、选举结果或李克特量表(强烈同意、同意、中立、不同意、强烈不同意)。   ⌂  Axios 图表图例中的发散色阶   ⌂  Opportunity Atlas 图表图例中的发散色阶   连续色阶和发散色阶都是定量色阶。   4)突出/弱化 ●●●●● 对于任何色阶,无论是类别色阶、连续色阶,还是发散色阶,你都可以重点强调那些你认为对你的读者或故事特别重要的数据类别: ⌂ 来自《卫报》这张图强调了”0%“部分的未分类梯度。 ⌂ 来自 The Pudding 的这张图弱化了”text“部分的颜色分类。 ⌂ 来自彭博社的这张图,突出了中国。   除了强调,你也可以弱化一些类别,比如杂项、其他或者无数据。它们通常是灰色的: ⌂ FiveThirtyEight 的这张图就补充了”无数据“的已分类梯度。   我们接下来关注的问题是:什么时候应该使用哪种色阶?   ✧✦✧✧ 何时定性?何时定量?     我们先来看看适用于90%情况的答案: 1)当你的数据没有内在排序时,使用类别色阶    如果你无法对颜色编码后的变量进行大小排序,使用类别色阶,反之如果可以排序,使用连续色阶或发散色阶。  例如变量是行业或国别,如伊朗、摩洛哥、巴基斯坦,应该使用不同的色相,因为摩洛哥本身并不比巴基斯坦好,反之亦然。     如果你想对失业率,如3.4%,1.4%,2%,这样的数据进行颜色编码,就要使用一个定量的色阶,连续色阶或者发散色阶。     这并不仅仅是用不同方法区分文本与数字的问题,如在李克特量表和衣服尺码表中都有内在的排序,这些也是定量尺度。所以当你把它们可视化的时候也一定要考虑使用定量的色阶。   让我们再深入一点。 2)使用明暗强调内在的排序 在你的分类之下总会有一些数字,如各州的失业率或是子类的计数,你可以使用定性的色阶来展示这些潜在的值。 下面的树状图就是一个很好的示例:   你可以像左图那样,在树状图中通过不同的色相给你的类别上色(如定义国家或行业)。但如果像右图一样通过色块的尺寸大小对应明暗变化来上色,你的树状图的可读性会更好,不会看起来花里胡哨。     左边的树状图试图同时做太多的事情,即使有一个很好的颜色图标,阅读这样的图表也是一个挑战。 在大多数图表类型中,避免使用未被编码的值(例如位置或顺序)着色。如果你想给图表中潜在的值上色,请确保这些值在无颜色的情况下也是清晰可见的,这样这个图表才会易于理解。   我不想给你们留下用一个尚未编码的潜在变量着色总是一个糟糕的决定的印象。下面是《经济学人》的一个反例: ⌂ 图表来自2019年6月8日,《经济学人》的“谷歌算法”详细页面。   让我们看看左上角的散点图:这张散点图是用它的数值来着色,而不需要用位置、长度等来可视化。散点图是为数不多的用根据数值上色效果就能很好的图表。我认为这是因为散点图类似于符号图,读者习惯于看到根据数据上色的点。 尽管如此,我们还是花了几秒钟才能理解《经济学人》的这张图表。但右上角的散点图就容易理解多了,因为它是双重编码的:政治意识形态通过位置(左右)和明暗双重显示。 如果没有右上角和下方柱状图,要迅速理解左上角的散点图是很困难的。 到目前为止,我们已经学习了树形图、柱状图和散点图,下面还有折线图的例子:     在这两个折线图中,明暗变化都用于在第一个日期对折线顺序进行双重编码。但是右边的图表中,更容易看到这一点,因为在整个图表中线条的顺序是相同的,左侧的图表会使我们感到困惑。   3)使用明暗变化区分子类别   还有更多的理由建议我们使用定量色阶而不是定性色阶来给定性数值上色。比如,区分子类别。以下是经济学家的图表展示: ⌂ 图表来自《经济学人》,按宗教信仰分组的被占领土人口。   这张图里,一级分类有犹太人(蓝色)和阿拉伯人(黄色),子分类是地区,以不同明度的蓝色和黄色表示。 4)使用色调来区分强调和弱化的区域 颜色分类不必具有相同的重要性,如果你想突出显示一个类别,可以用一种色调(通常是灰色)的阴影为所有其他类别着色:     这张图表基本上把类别(已婚、单身、离婚、丧偶)分成了子类别,又通过不同色调明暗把它们分成更大的类别。正如我们刚才看到的,子类别内的阴影不会迷惑读者——所以这个图表也不会。   5)用阴影使分类颜色减少,便于色盲人群阅读   在数据可视化行业中有一条准则——从业者要让他们的可视化数据对于视力受损的读者也可以理解。这条准则的意思是颜色应该具有不同的亮度级别,以便在将它们转换为灰度时可以轻松区分。   此外,仅使用一种色调,你的老板(或读者)就不会抱怨它看起来“太五颜六色”了。如果你正在做一个严肃的话题的可视化,那么这种单色调方式可能会排在你优先级列表的首位。 更容易理解和专业的表达,会说服你在分类时相比于选择不同色相更有可能选择同一色相,只是通过明暗色调来区别。英国的《金融时报》就是这样做:   但当尝试这么做的时候还有一些要点要牢记。 首先,要做好一些读者会为你的着色进行“合理化”解释的准备。即使这并不是你的本意,他们还是可能搜寻一些使用渐变的缘由。如“美国用一种更暗的色调展示是因为它有更高的值”或是“因为这对故事来说更重要。”因此,不要随意地着色。 其次,根据经验,编码条目时使用的渐变越多,阅读就越困难。辨认2-3个相同颜色的明暗渐变还是较为可行的。但如果是4、5、6个不同的渐变读者就会放弃,尤其是如果它们是无序的、没有被直接标记、或只使用一个色相(浅蓝到深蓝)而不是多个色相(浅黄到深蓝)的情况下,(读者会更容易放弃)。   第三,如果你确实想使用渐变,如果在引入第二种颜色没有意义的情况下,请保持一种颜色的渐变。 有一个示例。为了避免使用一个颜色的太多渐变,《金融时报》有时会展示多个颜色的渐变。   这样的效果并不好。“非洲/中东”和“其他”是不是属于蓝色区域(欧洲、亚太、美国)之外的另一个类别?这份图表的作者或许并没有想让读者这样理解这份图表,但读者的确会有这样的猜测。   ✧✧✦✧ 何时一个色系?何时两个色系?   如果你决定应使用定量色阶而不是分类色阶的话,还有两个问题要讨论。第一个问题,你应该使用顺序色阶还是发散色阶? 1)如果有一个有意义的中间节点,就使用两端发散的明暗色阶   如果中间值有意义,请使用多种颜色。那可能是: 零,例如正负经济增长 50%,例如两个选择之间的投票 平均年龄或中位数,例如,年龄中位数以下 商定的阈值,例如低于或高于贫困线的收入水平 目标,例如收入高于和低于季度目标   这听起来很容易,但是,很多时候中间值是什么并不清楚,或者根本没有中间值。举个例子: ⌂ 日常活动中歌曲的动机品质,图表来自 PepMusic。   这个项目的开发者决定不用配色对这些活动进行编码,而是用耗尽的程度来分类,并采用定量色阶:   然后,他们决定其他们的色阶是发散的,这意味着色阶有一个中间点:“正常/平均”程度的疲惫类型(办公室、早餐、晚餐)。他们也可以不设中间值——睡眠是零疲劳,跑步是非常疲劳,这样的话他们的变化应该是从亮到暗。   注意,使用发散色阶主要有两个优点:第一,强调极端情况;第二,使读者看到更多的数据差异。 2)使用发散色阶可以强调极端值  如果你的故事强调一个最大值,就选择连续色阶;如果你的故事同时关注最低和最高值,就选择发散色阶。 设想你写了一篇关于互联网的主要构成是欧洲、美国、日本、澳大利亚和其他西方国家,并且这些国家和地区从中受益颇多的故事。为了说明你的观点,下面这幅用连续色阶制作的地图很适合作为插图。它强调了数值最高的国家:   但如果你的故事是关于在非洲和亚洲只有少数人使用互联网,你或许就想用一个发散色阶来展示你的数据:   3)使用发散的明暗,让读者看到数据中的更多差异   和连续色阶相比,使用发散的明暗变化会让你看到数据中更多的差异。这是因为你表现出一个梯度的数量范围是连续渐变的数量范围的一半。 你可以在上面的地图上看到, 浅蓝色渐变在顺序色阶地图中占0至100%,但在发散色阶地图图中仅占50%至100%。10%或20%点的差异在发散色阶地图中变得更加明显。 将俄罗斯和土耳其比较一下,按照连续色阶,尽管它们之间相差16%,但土耳其在地图上看起来只比俄罗斯略浅一点点。   在发散色阶的地图中,差异会更加明显——俄罗斯仍然是类似的蓝色,但土耳其看上去颜色更浅,更接近米色,这表明它更接近中间点。       ✧✧✦✧ 何时分类?何时不分类?   要使用定量色阶,除了要注意是用顺序色阶还是发散色阶,你需要考虑是否要把数据分级(即归类,也称分类、阶梯化、量化、分等级、统计或使其离散),还是不分级(即让其保持未归类的,也称连续的)。       1)如果数据已分类,请使用分类的色阶   首先,如果你的数据是非连续的,请不要使用连续的色阶。这意味着,当可视化有天然排序的数据时,例如李克特量表、服装尺寸、官衔等,请使用分类的色阶。未分类的色阶会让人误认为两个相邻选项之间还有别的选项,但其实并没有。     2)如果想要表达统计范围,就使用分级色阶 使用分类的色阶会比未分类的色阶更容易表明观点。你可以将具有相同颜色的数值和区域进行分组,以便读者可以快速了解你想表达的观点。   制图师迈克尔·多布森(Michael Dobson)在1980年代大力倡导分类地图。他称它是“更简单、更高效的通信设备”。分类地图肯定会更简单,因为简化是分类地图的核心。但这是否也会更有效?这取决于你要传达的内容。       如果您想传达非常有限的信息,分类地图是一个不错的选择。制图师麦凯瑟琳(Mr. 库尔森(Coulson)在1991年指出,只要地图具有统计目标,例如显示:   “中等家庭收入排最后百分之十的县域” “癌症死亡率高于平均水平两个标准差以上的区域” 如果某个县的失业率高于全国平均水平(如上图所示)   分类是实现这一目标的方法。“分类系统定义了自己,相比地图的整体模式,重点是哪些数据单元属于特定的预定义类别。” 如果你希望读者查看某些区域是否在统计范围内,请使用分类色阶。 但是一旦你想展示一种普遍现象 ,如“温度在南部比北部高”或“我们的收入是今年高于去年”,未分类地图可能是更好的选择。 这是同一张失业地图,其色阶有所不同:   相比上一张,这张地图让人们更难看清各个县属于哪个统计范围——即它们的失业率低于或高于全国失业率。 3)用未分类色阶呈现细微差别的视图   正如上面的两张地图所清楚显示的,与未分类的地图相比,分类的地图显示的细微差别要小。 未分类的地图会提供更真实、更细致的失业率视图。朱迪思·泰纳(Judith A. Tyner)在她的《地图设计原理》中写道:“未分类的等值线图可以最精确地表示数据模型。” 展示数据的复杂性本身就是一个崇高的目标。如果展示复杂性在你的优先级中名列前茅,请使用未分类的地图。 但是分类地图也可以或多或少地产生细微差别。你显示的类别越多,地图就变得越细致入微。仅显示两个类别的失业率地图是个极端的例子。这里我们提供了一份有六个档次的地图,3个高于全国平均水平的档次和3个低于全国平均水平的档次。   与只有两个分类的地图相比,此地图显示的差别更加细微–但与未分类地图相比还是略逊一筹。 4)如果你懒得向读者解释,请使用未分类色阶 未分类的图中能体现出的那些你观察到的细微差别可以让读者看到一些对仅仅对他们很重要的信息。 比如,未分类图能让读者更容易看到: …边界区域。在分类地图中,通常将它们与数值稍高或稍低的区域放在一起。 …不同类别之间的过渡是平稳的还是突兀的。 …作为读者我感兴趣的地区的数值与相邻地区相比到底是更高还是更低。 举个例子,让我们放大南达科他州-下图正中央的地区。南达科他州的失业率比周围大多数州都更接近全国平均水平(所以它的蓝色更浅)。在未分档的地图上,我们可以看到,那些与其他州接壤的南达科他州县的失业率都要高于接壤的外州的区县。   ⌂ 上图:数据分六个等级的地图,下图:未分级的地图。   在分档地图中,这些细微的差异是不可见的。读者无法知道南达科他州的标为深蓝色的县的失业率是否比周围其他州标为深蓝色的县更高还是更低。 5)如果如果想让读者读取数值,请使用分类色阶 分档地图使读者虽然只能让读者读取一个范围(例如6%和7%之间),但是却可以帮助他们更好的领会这份数据。我们在几小节前已经提到过的麦格和库尔森(Mak and Coulson)在1991年的一项研究中得出结论:“分级地图在估计数值的测试中比未分级地图在统计结果上有着非常显著的优势。” 让我们再次看看南达科他州: ⌂ 上图:数据分六个等级的地图,下图:未分级的地图。   在上面的分档地图中,你可以确保正确阅读某一区域的值处在哪个范围-而在未分档的地图上,你只能对值域有“合理的猜测”。你的猜测可能在很小的区间里(“接近6%”,而不是“介于5%和6.9%之间”),但他们仍只是猜测。
《 数据可视化造假防忽悠指南 》
大家好,我是小五🐶 以前我们看到一个做得很烂的图表,或者穿帮的数据可视化作品时,往往是将它们嘲笑一番也就算了。但有些时候,尤其是刚过去的这一年,我们好像更难分辨一个可视化作品是单纯的糟糕产物,还是出于偏见而刻意制造的虚假信息。    当然,用数据来撒谎已经不是什么新鲜事儿了,但现在图表越来越容易被广泛传播,网上到处都是,而其中好多传递的是假象。你可能只是随便瞟了一眼,但一个简单的信息也可能在脑子里生根发芽。在你还不知道的时候,小李子已经在桌子上转起了陀螺,而没人关心它会停下来还是会一直转下去。    自然而然地,现在我们需要快速看穿一个图表是否在撒谎,而这篇图文就是你贴心的指导手册哟。   1)截断数轴 左边的y轴数据从10开始,纯粹的瞎话。右边的数据从0开始,很好。    长度是柱状图视觉呈现的关键,所以当某些人通过截断数轴而故意把长度缩短时,整个图表的差别就变得更明显了。这些人想要展现出比实际情况更剧烈的变化。我在另一篇文章里详细谈了这个问题。    2)双重数轴 它用了两种差距极大的比例,可能是为了强行扯上因果关系。    通过使用双重数轴,数据的量级可以根据两种度量来缩小或扩张。人们通常用它来表达相关度和因果关系。“因为这个东东,另一个事儿发生了,看,很清楚吧。”    这个假相关数据的项目是个极好的例子。    3)总和不对头 饼图中所有部分的比例加起来超过了100%。    一些图表专门要展示总体中的某些部分,而当这些部分加起来超过了总和,问题就很大了。比如,饼图代表的是总共100%,而如果每个扇形的比例加起来超过了100%?怪怪的噢。    可以看看这个搞笑的例子。    4)只看绝对值 这其实只是人口分布图。当你对比不同地方、种类或群体时,你必须考虑相对值,公平比较    任何事物都是相对的。你不能因为某个城镇发生了两起抢劫案,另一个只发生了一起,就说第一个镇更危险。万一第一个镇的人口是第二个的一千倍呢?更有效的方式往往是对比百分数和比例,而非绝对值和总值。    这幅图表很直白地展现了人口绝对数的影响。    5)有限范围 左图看上去增幅很大,但右图显示出这只是常态,且选定时间内的增幅实际并不明显。    人们倾向于精心挑选日期和时间段来配合特定的叙事,所以更应该考虑到历史背景、时常发生的事件,以及合理的用来比较的基准。    当你研究全局时,可能会发现有趣的事情。    6)奇怪的分级 左图只有两个分级,大于1的究竟包括些什么?可能在打掩护。右图更好,展示了更多变量。    有些可视化作品会过分简化一个复杂的模型,而非展示出原数据中完整的变量范围。这样做很容易会把一个连续的变量转化为从属于某一类别的变量。    广泛的分级在某些情况下很有用,但复杂性往往才是事物的意义所在。要防止过分简化。    7)混乱的面积比 30是10的三倍,但或许是为了增加显著性,图上最大的矩形比最小的大得可不止三倍。    如果按照面积来进行视觉上的编码,图形的大小比例就该是面积的比例。有些人却在做面积编码的可视化时,改变边长的比例来突出大小对比,完全是为了抓马啊。    有时这种错误是无意间造成的,更需要警觉。    8)操控面积维度 上下两个图形的面积相等,但看上去很不一样。    或许有人懂得怎么用面积来做视觉编码,却还(gu)是(yi)做出了上图这样的东西。我还没见过如此夸张的例子,但以后说不定就会有。我打赌连象形图都能出现,等着瞧吧。    9)为了三维而三维 千万别当你看到一个明明没必要还强行用三维的图表,请质疑它的数据、图表、作者及图表衍生出的任何事物。    
统计学知识大梳理
  概述   你的“对象” 是谁?   此对象非彼“对象”,我们学习“概率和统计学”目的在于应用到对于“对象”的研究中,笔者将我们要研究的“对象”按照维度分为了两大类。     一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。   二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。   因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范畴,然后在按着这个分支检索自己该用到的知识或方法来解决问题。   分析就像在给 “爱人” 画肖像   从外观的角度描述一个姑娘,一般是面容怎么样?身段怎么样?两个维度去描述。就像画一幅肖像画,我们的研究“对象”在描述性分析中也是通过两个维度去来描述即,“集中趋势---代表值”,“分散和程度”。     看到这几个概念是不是就很熟悉了?笔者认为一个描述性的分析就是从这两个维度来说清楚你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常用的概念“均值”,“方差”之类的。下面我们进入正题,笔者将详细阐述整个知识架构。   1 第一部分 对“数据”的描述性分析   数据分析中最常规的情况,比如你手上有一组,一批或者一坨数据,数据分析的过程就是通过“描述”从这些数据中获取的信息,通常可以从两个维度去描述:   1. 集中趋势量度:为这批数据找到它们的“代表”   均值(μ)   均值的局限性   均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的情况,会产生偏差” ;例如下面一组数据就不太适合用均值来代表   这5个人的年龄均值是:31.2岁     很显然,在这组数据中,大部分人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描述他们的年龄是31.2岁,很显然用均值作为描述这组数据是不合适的,那么我们该如何准确的表征这组数据呢???   中位数 中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。   中位数的局限     回到上一个例子,若用中位数来表征这组数据的平均年龄,就变得更加合理,中位数15。   那么我们在看一下下面一组数据,中位数的表现又如何?     中位数:45   这组数据的中位数为:45,但是中位数45并不能代表这组数据。   因为这组数据分为两批,两批的差异很大。那么如何处理这类数据呢?接下来介绍第三位平均数。   众数   众数是样本观测值在频数分布表中频数最多的那一组的组中值。   平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。   2. 分散性与变异性的量度   (全距,迷你距,四分位数,标准差,标准分)   全距=max-min   全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。   全距的局限性   全距虽然求解方便快捷,但是它的局限性在于“若数据中存在异常值的情况,会产生偏差。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。   四分位数   所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。   Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。   Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。   Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。   迷你距 也叫“四分位距”   迷你距。它是一组数据中较小四分位数与较大四分位数之差。   即:迷你距= 上四分位数 - 下四分位数   迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。   全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?   我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。   方差   方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。     标准差   标准差为方差的开方。     通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢?   标准分——表征了距离均值的标准差的个数     标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。   标准分还有个重要的作用,它可以把正态分布变为标准正态分布,后文会有介绍。   第一部分小节   1. 描述一批数据,通过集中趋势分析,找出其“代表值” ;通过分散和变异性的描述,查看这批数据的分散程度。 2. 集中趋势参数:均值,中位数,众数 3. 分散性和变异性参数 :  全距,四分位距,方差,标准差,标准分   1 第二部分 关于“事件”的研究分析 概率论 1. 一个事件的情况 为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事”了。 事件:有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。 概率:每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!!! 概率分布:我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。 概率分布可以是图象,也可以是表格。如下图1和表2都可以算是概率分布 期望:表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值) 方差:表征了事件不同结果之间的差异或分散程度。 2. 细说分布 理想很丰满,现实很骨感。真实的生活中别说去算一个事件的期望,即使把这个事件的概率分布能够表述完整,每个事件对应的概率值得出来就已经是一件了不起的事情了。 因此,为了能更快更准确的求解出事件的概率分布,当某些事件,满足某些特定的条件,那么我们可以直接根据这些条件,来套用一些固定的公式,来求解这些事件的分布,期望以及方差。 “离散型”数据和“连续性”数据差异 在我们展开分布的知识之前,先补充一个预备知识,什么是离散数据,什么是连续数据,它们二者之间有什么差异? 离散数据: 一个粒儿,一个粒儿的数据就是离散型数据。 连续数据: 一个串儿,一个串儿的数据就是连续型数据。 好啦,开个玩笑!!!别打我,下面分享干货!!! 其实上述描述并没有错误,离散型和连续型数据是一对相对概念,同样的数据既可能是离散型数据,又可能是连续型数据。判别一个数据是连续还是离散最本质的因素在于,一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据,差异越小越趋近于离散型数据。 举个例子: 人这个单位,对于一个家庭来说,就离散型数据,一个家庭可能有 3个人,4个人,5个人....等等。 对于一个国家来说,就是连续型数据,我们的国家有14亿人口,那么以个人为单位在这个量级的数据群体里就是连续型数据。 清楚了离散型和连续型数据的差异,我们接下来一块科普这几种常用的特殊分布。 离散型分布 离散数据的概率分布,就是离散分布。这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。 连续型分布 连续型分布本质上就是求连续的一个数据段概率分布。 正态分布 f(x)----是该关于事件X的概率密度函数 μ --- 均值 σ^2 ---方差 σ ---标准差 绿色区域的面积 ---该区间段的概率 正态分布概率的求法 step1 --- 确定分布和范围 ,求出均值和方差 step2 --- 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?) step3 ---查表找概率 离散型分布  →  正态分布 (离散分布转化为正态分布) 精彩的地方在这里,笔者已经阐述了连续型数据和离散型数据是一对相对的概念,那么这就意味着在某种“边界”条件下,离散型分布和连续型分布之间是可以相互转化的。进而简化概率分布的计算。这里笔者不在偷懒直接上皂片了(编公式快吐了!!!!) 3. 多个事件的情况:“概率树”和“贝叶斯定理” 多个事件就要探讨事件和事件之间的关系 对立事件:如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件 穷尽事件:如何A和B为穷尽事件,那么A和B的并集为1 互斥事件:如何A和B为互斥事件,那么A和B没有任何交集 独立事件:如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。 例子:10个球,我随机抽一个,放回去还是10个球,第二次随机抽,还是10选1,那么第一次和第二次抽球的事件就是独立的。 相关事件:如果A件事的结果会影响B事件结果的概率分布那么A和B互为独立事件。 例子:10个球,我随机抽一个,不放回去还是10个球,第二次随机抽是9选1,那么第一次和第二次抽球的事件就是相关的。 条件概率(条件概率,概率树,贝叶斯公式) 条件概率代表:已知B事件发生的条件下,A事件发生的概率 概率树 --- 一种描述条件概率的图形工具。 假设有个甜品店,顾客买甜甜圈的概率是3/4 ;不买甜甜圈直接买咖啡的概率是1/3 ;同时买咖啡和甜甜圈概率是9/20。 从图中我们可以发现以下两个信息: 1. 顾客买不买甜甜圈可以影响喝不喝咖啡的概率,所以事件甜甜圈与事件咖啡是一组相关事件 2. 概率树每个层级分支的概率和都是1 贝叶斯公式 ----提供了一种计算逆条件概率的方法 贝叶斯公式用于以下场景,当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。 第二部分小节 1.  事件,概率,概率分布之间的关系 2.  期望,方差的意义 3. 连续型数据和离散型数据之间的区别和联系 4. 几何分布,二项分布,泊松分布,正态分布,标准正态分布 5. 离散分布和正态分布可以转化 6. 多个事件之间的关系,相关事件和独立事件,条件概率和贝叶斯公式   1 第三部分 关于“小样本”预测“大总体” 现实生活中,总体的数量如果过于庞大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。 1. 抽取样本 总体:你研究的所有事件的集合 样本:总体中选取相对较小的集合,用于做出关于总体本身的结论 偏倚:样本不能代表目标总体,说明该样本存在偏倚 简单随机抽样: 随机抽取单位形成样本。 分成抽样: 总体分成几组或者几层,对每一层执行简单随机抽样 系统抽样:选取一个参数K,每到第K个抽样单位,抽样一次。 2. 预测总体(点估计预测,区间估计预测) 点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。 场景1: 样本无偏的情况下,已知样本,预测总体的均值,方差。 (1) 样本的均值 = 总体的估算均值(总体均值的点估计量)  ≈ 总体实际均值(误差是否可接受) (2)总体方差     估计总体方差  场景2:已知总体,研究抽取样本的概率分布 比例抽样分布:考虑从同一个总体中取得所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例抽样分布”。样本的比例就是随机变量。 举个栗子:已知所有的糖球(总体)中红色糖球比例为0.25。从总体中随机抽n个糖球,我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。 样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布” ,样本的均值就是随机变量。 中心极限定理:如果从一个非正态总体X中抽出一个样本,且样本极大(至少大于30),则图片.png的分布近似正态分布。 区间估计量--- 点估计量是利用一个样本对总体进行估计,区间估计是利用样本组成的一段区间对样本进行估计。 举个栗子:今天下午3点下雨;今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确,你会使用那句话术? 如何求置信区间?(这里笔者讲一下思路,不画图码公式了,读者有兴趣可以查阅一下教材) 求置信区间简便公式(直接上皂片) 关于C值参数:置信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58 待补充知识一(t分布) 我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。这里笔者直接放张图,不做拓展了。 待补充知识二(卡方分布)----注意待补充不代表不重要,是笔者水平有限,目前还不能用简单的语言概述其中的精髓。 卡方分布的定义 若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。 卡方分布的应用场景 用途1:用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度; 用途2:检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联: 3. 验证结果(假设检验) 假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。 两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误 第一类错误: 拒绝了一个正确的假设,错杀了一个好人 第二类错误:接收了一个错误的假设,放过了一个坏人 第三部分小节: 1.  无偏抽样 2.  点估计量预测(已知样本预测总体,已知总体预测样本) 3. 区间估计量预测(求置信区间) 4. 假设检验 1 第四部分  相关与回归(y=ax+b) 这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归,非线性回归这里不暂不做拓展。 散点图:显示出二变量数据的模式 相关性:变量之间的数学关系。 线性相关性:两个变量之间呈现的直线相关关系。 最佳拟合直线:与数据点拟合程度最高的线。(即每个因变量的值与实际值的误差平方和最小) 误差平方和SSE: 线性回归法:求最佳拟合直线的方法(y=ax+b),就是求参数a和b 斜率a公式: b公式: 相关系数r:表征描述的数据与最佳拟合线偏离的距离。(r=-1完全负相关,r=1完全正相关,r=0不相关) r公式: 结束语 笔者这里梳理了统计与概率学最基础的概念知识,尽量阐述清楚这些概念知识之间关联的关系,以及应用的场景。底层概念是上层应用的基础,当今浮躁的“机器学习”,“神经网络”,“AI自适应”这些高大上的关键字满天飞。笔者认为踏踏实实的把“基础”打扎实,才是向上发展的唯一途径。
数据分析思维九段路线图
经常有很多朋友问我,数据分析主要有哪些思维?学习的路线是怎么样的? 为了提供一个简单的方向指引,让数据分析思维的学习过程更加有趣,我做了一幅数据分析思维九段路线图,你可以把学习的过程当作一种游戏,享受段位升级的乐趣。 在段位升级的过程中,如果你理解起来感觉比较吃力,那么应该沉下心来,认真地先把基础打好,积累更多的数据分析经验。 1. 初段:目标思维 做数据分析,首先要一定明确目标,以终为始。 只有明确目标,才不会迷失方向,就像导航软件,如果没有设置目的地,那么它是没法告诉你路线图的。 目标思维主要体现在以下 3 个方面: (1)正确地定义问题 比如说,小明听了煎饼大妈月入 3 万的故事,心里就想:为什么煎饼大妈月入 3 万? 这个问题的定义,应该是关注「月入 3 万」,而不是「煎饼大妈」。 也就是说,小明想的应该是「如何实现月入 3 万」,而不是「如何变成煎饼大妈」。 (2)合理地分解问题 比如说,煎饼大妈如何实现月收入 3 万? 这是一个比较大的问题,可以进行细分,因为收入等于订单数乘以客单价,所以把这个问题细分为两个小问题: a. 如何实现一个月卖 5000 个煎饼? b. 如何实现平均每个煎饼卖 6 块钱? (3)抓住关键的问题 在不同的发展阶段,关键问题是不一样的。 比如说,对煎饼大妈来讲,刚开始做的时候,关键问题是:如何选择人流量大的好地段? 当选好地段之后,关键问题就变成:如何提高路人来购买的概率?如何提高客单价?如何提高重复购买率? 总之,数据分析的目标,就好比枪上的瞄准器,如果没有瞄准器,枪照样可以打,但是有了瞄准器,枪才可以打的更准。 2. 二段:对比思维 有人说: 没有对比,就没有伤害。 在数据分析中,没有对比,就没有结论。 比如说,小明某次期末考试的成绩不好,英语只得了 30 分,小明的妈妈对他说:“你上次考试英语考了 70 分,这次怎么就考得这么差?你看你的同班同学,这次都考 80 分以上。” 常见的对比思维有以下 5 种: (1)跟目标对比 (2)跟上个月比 (3)跟去年同比 (4)分渠道对比 (5)跟同类对比 数据分析的过程,就是在明确目标之后,通过对比等思维,找到问题的原因,得出分析的结论,提出可行的建议,从而起到帮助决策和指导行动的作用。 3. 三段:细分思维 有人说: 不自由,毋宁死。 在数据分析中,细分是数据分析的灵魂,无细分,毋宁死。 比如说,小明某次考试的总成绩不好,细分一看,发现其他科目的成绩都不错,只有英语成绩特别差,只得了 30 分,从而拉低了整体的成绩。 常见的细分方法有以下 5 种: (1)按时间细分 (2)按空间细分 (3)按过程细分 (4)按公式细分 (5)按模型细分 在运用细分思维解决问题的过程中,要做到有的放矢,围绕数据分析的目标,找到合适的方法,不要像无头苍蝇一样到处乱撞。 当发现数据异常时,尝试从不同的维度进行细分,这样既能锻炼你的数据分析思维,又能加深你对业务的理解。 4. 四段:溯源思维 做数据分析的时候,要多问几个为什么,追根溯源,在数据源寻找可能隐藏的逻辑关系和解决方案。 比如说,小明把自己每天的行动数据,都用 Excel 详细记录下来,其中包括每一时段的情绪数据。小明做复盘总结的时候,发现有一天情绪数据特别低,然后连续问了几个为什么: (1)为什么这一天情绪数据特别低? 因为那一天小明上当受骗了。 (2)为什么会上当受骗? 因为骗子用生命安全来吓小明。 (3)为什么骗子能吓到小明? 因为小明担心自己的生命安全。 (4)为什么小明会担心生命安全? 因为求生是人类的本能反应。 (5)为什么人会有求生的本能? 因为人的大脑分为:年代久远的本能脑、相对古老的情绪脑和非常年轻的理智脑。 理智脑对大脑的控制能力很弱,大部分决策往往源于本能和情绪,而非理智。 到这一步,小明找到了自己上当受骗的根本原因,在于自己当时没有控制好自己的大脑,所以失去理智。 针对这个问题,小明运用「控制两分法」,并在脑海中反复进行演练,然后在实践中进行校正,实现与情绪的和平共处,从而更加理智地面对纷繁复杂的世界。 如果你经常运用溯源思维,就能提升数据的敏感度,并加深对业务的理解。 5. 五段:相关思维 相关思维,就是寻找变量之间相互关联的程度。 比如说,有一家超市的数据分析师发现,跟尿布一起购买最多的商品竟然是啤酒,啤酒和尿布有什么关联呢? 采访小明的爸爸,他说自己下班后,给小明的妹妹买尿布的同时,也会购买自己喜欢喝的啤酒。 如果一个变量改变的时候,另一个变量也朝着相同的方向发生变化,那么我们就说这两个变量之间存在正相关性。 运用相关思维,通常包括以下 3 个步骤: (1)收集相关数据 (2)绘制散点图形 (3)计算相关系数 需要注意的是,相关不等于因果。即使两个变量之间相关,也不代表其中一个变量的改变,是由另一个变量的变化引起的。 比如说,国家的诺贝尔奖数量,与巧克力消费量之间呈现正相关关系,但这并不是说,多吃巧克力有助于获得更多的诺贝尔奖。 一种合理的解释是,诺贝尔奖的数量与巧克力的消费量,很可能都是由其他变量导致的,例如国民的受教育程度和富裕程度。 6. 六段:假设思维 胡适先生说过: 大胆假设,小心求证。 这句话非常适合用在数据分析领域。 大胆假设,就是要打破既有观念的束缚,挣破旧有思想的牢笼,大胆创新,对未解决的问题提出新的假设。 小心求证,就是基于上面的假设,用一种严谨务实的态度,寻找真相,不能有半点马虎。 比如说,有一天小明去买水果,跟卖水果的阿姨说: “阿姨,你这桔子甜不甜?” 阿姨:“甜啊,不信你试试。” 小明:“好,那我试一个。” 小明剥开一个桔子,尝了一口说: “嗯,不错,确实挺甜的,给我称两斤。” 运用假设思维,通常包括以下 3 个步骤: (1)提出假设 (2)统计检验 (3)做出判断 大胆假设并非绝对可靠,但是通过小心求证,我们可以更好地认识世界上的许多现象,从而得出更有价值的分析结论。 7. 七段:逆向思维 到了七段,你已经具备比较丰富的数据分析经验,此时如果想要进一步有所突破,就得打破常规,具有逆向思维的能力。 比如说,有一天小明去买西红柿:“阿姨,你这西红柿多少钱一斤?” 阿姨:“两块五。” 小明挑了 3 个放到秤盘:“阿姨,帮我称一下。” 阿姨:“一斤半,3 块 7 毛。” 小明去掉其中最大的西红柿:“做汤不用那么多。” 阿姨:“一斤二两,3 块。” 小明拿起刚刚去掉的那个最大的西红柿,付了 7 毛钱,扭头就走了。 你看,本来是阿姨想占小明的便宜,虚报重量。但是,小明利用逆向思维,反而让阿姨吃了哑巴亏。 常见的逆向思维有以下 5 种: (1)结构逆向 (2)功能逆向 (3)状态逆向 (4)原理逆向 (5)方法逆向 理解这些逆向的方法,有助于你打开数据分析的思路,不断提升自己的可迁移能力,尤其是底层的思维能力,做到以不变应万变。 8. 八段:演绎思维 演绎思维的方向是由一般到个别,主要形式是「三段论」,由大前提、小前提、结论三部分组成。 比如说,小明不仅知道:金属都能导电;而且知道:铜是一种金属;所以小明可以得出结论:铜能导电。 运用演绎思维,应该遵循 5 项基本原则: (1)不要出现第四个概念 (2)中项要能向外延伸 (3)大项和小项都不能扩大 (4)前提都为否,结论不必然 (5)前提有一否,结论必为否 掌握以上基本原则,能帮你建立更加严谨的数据分析思维。 9. 九段:归纳思维 归纳思维的方向与演绎正好相反,归纳的过程是从个别到一般。 比如说,小明先知道:金、银、铜、铁等金属分别能导电,然后归纳出一个结论:所有金属都能导电。 这个过程,是先接触到个别事物,然后再进行归纳总结。 常见的归纳方法有以下 5 种: (1)求同法 (2)求异法 (3)共用法 (4)共变法 (5)剩余法 这些方法是我们获取新知识的重要途径,不过需要注意的是,很多案例和故事都说明,有限的观察并不等于真理。 为了避免以偏概全,我们还要加强归纳思维的训练,积累更多实战的经验,这样归纳总结出来的结论,才能经得起时间的考验,才会更有现实意义。 通过归纳总结,得出有价值的分析结论,这既是数据分析的终点,也是数据分析的起点,形成一个正向的循环系统。 最后的话 正确的思维能力,是做好数据分析的必备条件,这也是很多人相对比较欠缺的一种能力。 要想成为一个有洞察力的人,就要多学习、多思考、多总结、多实践,通过刻意练习,举一反三,把数据分析的思维,应用到日常的工作和生活中去,逐渐提升自己的数据分析思维能力   编辑于 2021-9-29 17:25
数据分析几大常见效应和定律
大家好,我是小五🐶 在讨论数据和业务的过程中,如果对方时不时蹦出个这效应,那定律,自己没有了解的话会感觉一脸懵!   其实这些概念也没有什么神秘的,今天整理了一下咱们数分领域常见的效应和规律,希望可以帮大家。   01 马太效应 马太效应出自圣经《新约·马太福音》里有一则寓言:“凡有的,还要加倍给他叫他多余;没有的,连他所有的也要夺过来”。中国也有类似的古语,看过83版射雕英雄传的同学应该对九阴真经里面 “天之道,损有余而补不足” 这句话印象深了,这句话出自老子的《道德经》,完整的古语为“天之道,损有余而补不足;人之道则不然,损不足以奉有余”,意思是:自然的法则,是损减有余来补充不足。人类社会世俗的作法却不然,而是损减贫穷不足来供奉富贵有余。这两句古语比较直观地表述了马太效应,通俗地解释为 “强的越强,弱的越弱”。   马太效应在业务中非常常见。比如在推荐算法中,被判定为质量较好的用户所得到的资源就越多,这种情况也会形成反馈,得到的资源越多越会被判定为质量较好的用户,从而加剧这种效应(类似于短视频点赞越多曝光越多,曝光越多点赞越多)。   02 虹吸效应 有些同学小时候可能做过这样的事情,把一根软管子一头插入水槽里面,用嘴把水吸出来,然后把软管子的另一头放地比水槽里水面低,那么水就能源源不断地流出来,其中的道理就是虹吸效应:液态分子间存在引力与位能差能,使液体会由压力大的一边流向压力小的一边。在业务中的虹吸效应指的是,某一主体将资源吸引过去,从而使得自身相比其他主体更加有吸引力,并导致其他主体营养不良的现象。   这与马太效应有相似之处但是并不相同,如果说马太效应通俗理解为“强者越强,弱者越弱”,那么虹吸效应的通俗解释为“大树地下不长草”。强者越强不一定是以牺牲弱者为代价,而虹吸就像一块干海绵,把周边的资源吸干,导致周边没有资源可用甚至寸草不生。   比如,在劳动力市场,每年985,211毕业的本科研究生数量是有限的,大公司用诱人的薪资待遇吸引人才,导致这部分人才大部分流向大公司,小公司则相对较难招聘到这部分毕业生,这也是一种虹吸现象。   再比如,在渠道投放时,假如渠道投放的总体预算是固定的,假如增加某一厂商渠道A的费用使此渠道的ECPM值(可以理解为厂商对品牌方的一种评价指标,ECPM值越高在投放中将获得更好的资源)上涨,进而导致渠道A的成本下降,渠道投放人员就有可能把其他渠道的预算转移到A,久而久之A渠道的预算占比会越来越高,其他渠道预算占比越来越低,长尾的小渠道可能会停止投放。   03 幸存者偏差 幸存者偏差讲的目光聚焦于“幸存下来”的群体具备的某些特征,但是忽略了“未幸存下来”的群体是否也是具备相同的特征。这里“幸存”的概念,其实更合理的说法应该是“筛选”。   在二战中统计学家沃德教授曾收到美国军方邀请,为降低飞机被击落的概率提出建议。经过观察发现机翼是被击中最多的地方,而机尾被击中概率比较小。当时军方的指挥官认为应该加强机翼的防御,但是沃德教授的结论是要加强机尾的防御。原因在于样本仅统计了返航的飞机,机翼被集中多次依然能够返航说明机翼并非是致命的地方。机尾被打中的飞机,会导致引擎受损而无法返航。   04 辛普森悖论 辛普森悖论指的是,当对比AB两个群体的数据,并将数据拆分成多个维度时,A组在各个维度下的表现均好于B,整体A组的表现却并不一定好于B。   举一个栗子,对比AB两个竞品的留存,将留存拆分成新用户和老用户两部分,竞品A新老用户的留存均高于竞品B,但是竞品A的整体留存却低于竞品B。   出现这种情况的原因在于两点,第一是两个竞品新老用户的占比不一致;第二是竞品A老用户的留存高于竞品B新用户的留存(也可以是竞品A新用户的留存高于竞品B老用户的留存,在此以其中一种情况进行说明)。如果竞品A老用户占比高于竞品B,那么竞品B在老用户留存累计的优势就有可能抹平竞品B新用户留存积累的劣势,使得整体留存高于A。   通俗地讲,就好比两个拳击手X,Y对打,Y在各个方面都比X有优势,如果X采取以牙还牙的策略定是赢不了Y,所以X需要集中优势力量攻打Y的软肋,虽然X自己也会收到攻击,但是如果X对Y造成的伤害远远高于自己可以承受的伤害,就有可能先把Y撂倒。那“农村包围城市,武装夺取政权” 是否也是有类似的思想呢?   05 本福特定律 本福特定律,是说一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成(30.1%),这个定律至今没有经过一个严格的证明,他就像是大自然赋予我们的一个监控指标,当一组数据不符合本福特定律时,就有理由怀疑数据是否造假。所以此定律经常用在检测上市公司财报是否造假以及选举中是否有舞弊现象。   06 帕累托定律 这个名字大家可能并不熟悉,但是一定听过二八定律,管理学家帕累托通过研究大量事实发现:社会上20%的人占有80%的社会财富。后来经过丰富与发展这个定律表述为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。   比如活跃用户中仅有20%的付费用户,付费用户中20%的用户贡献了80%的收入等等。当然20%与80%只是一个统计数据,其实质讲的是 “在因和果、努力和收获之间,普遍存在着不平衡关系” , 即不平衡关系存在的确定性和可预测性。   二八定律告诉我们把精放在更本质的事情上,不经规划地做事情很有可能会浪费80%的精力去产出20%的东西。有些同学在做分析的时候,可能有这种感受,跑了n个sheet的数据,结果写报告的时候,只用了四五个数据。所以在分析的习惯是先思考产生问题的原因,并对每个可能的原因赋予权重,然后以最简单快捷地方式来验证各个原因,快速排除错误方向,而不是在每个原因上都做详细的解释。   以上。    
数学,原来可以这么美!
大家好,我是小五🐶 今天给大家带来一波视觉享受,感受数学之美! 法国著名艺术家罗丹曾说:世界中从不缺少美,而是缺少发现美的眼睛。对于我们的眼睛,不是缺少美,而是缺少发现。在艺术者眼中,一切都是美的,因为他锐利的慧眼,注视到一切众生万物之核心;如能抉发其品性,就是透入外形触及其内在的"真"。此"真",也即是"美"。如果我们能够用数学的眼光来观察世界,又将会是怎样的呢? >>>> 首先请大家欣赏一组最美的数学公式! 仿佛世界上一切事物都可以用数学公式来描述。 雅各布线 阿基米德线 圆线 心脏线 玫瑰线 笛卡尔线 有这样一句话:“数学是上帝用来书写宇宙的文字!”如果我们用数学的眼光来观察世界,将会是怎样的呢? 小五和大家一起来感悟数学的美! 决定陀螺自身旋转方向与行动轨迹的是左右旋。右旋指陀螺自身旋转方向是顺时针,行动轨迹是逆时针。左旋指陀螺自身旋转方向是逆时针,行动轨迹是顺时针。旋转就是一种平衡。 抛骰子似乎是一片混沌,但混沌之中包含确定性。抛骰子是等可能概率问题。那个灯罩下传播的不仅是光线,还有三角函数线(波)。墙上印着的不仅是影子,还有一条条圆锥曲线。 湍流是一种自然存在的现象,只要有空气就会有湍流发生。飘动的不仅是云层,还有纳维-斯托克斯方程。 分形几何美妙之树将递归生长到极致! 雪花,一种美丽的结晶体,多呈六角形。不过,在科赫的手里成了科赫雪花分形。 按下的是手印,隐藏的是独一无二的双螺旋分子。 扔下的是咖啡块,漂动是一个个正五边形和正六边形的组合体。 放大镜是焦距比眼的明视距离小得多的会聚透镜。 电脑桌面上看到的是文本、数据和图像,看不到的是一个个算法、离散数学! 如果你觉得上面的数学世界,你有些HOLD不住,下面这一组美图,将带你走进一个极致的数学美学世界! 非洲菊 多叶芦荟 又称螺旋芦荟 半边莲 向日葵 某种蕨类 它的叶子梯就像梯子一样排列着 自然界中这些神奇的几何图案除了给人以美的感受,也给人以智慧的启迪。 数学,原来可以这么美!  
数据分析师 如何工作中 提升 思维能力
数据分析师的最重要产出就是分析报告,多数以PPT形式发出。产出后宣讲给领导、给产品运营及其他同事过程中,最重要的是说服力,说服力的强和弱,大多取决于报告的质量以及其他元素(比如表达、宣讲、私交、个人魅力)。 而看报告的人,需要的是批判性思维。   为什么要采纳数据分析师的结论和建议?分析师结论和建议靠谱吗?从数据中是否能有更好的解决问题的方法(也就是结论和建议)?   报告质量如果先不论PPT做的好看不好看,只看理由(论据)和结论,那分析师需要保证的是PPT能够符合拥有批判性思维的人的考察。   数据分析师有时候还需要接收临时支撑的需求,少不了前期的需求背景沟通、需求必要性沟通、需求是否有更好的解决方法、指标口径沟通等等,而初级分析师经常需要数据的返工,问题可能多数出在前期沟通方法上。如何高效沟通,其中一个方法便是采用批判性思维。   批判性思维对我们日常做出更理性的判断,拥有更健康的信念很有帮助 。 在使用批判性思维时,既可以正着用,尤其在工作场景。而在营销过程,更有可能是反着用 。 比如广告中,几乎从来没有所谓的批判性思维,而是利用了我们日常非常松懈的思考习惯。运营经常利用我们”贪便宜“来砍一刀,“天下会掉馅饼”买入热门股,”服从权威“包装BAT大佬等人性的弱点来消费用户。   对于我们希望提升自己思维能力的人,即要知其然,也要知其所以然。今天只讲正向的批判性思维在日常工作中的应用。   批判性思维的四个要素:     场景1: 分析师: APP的净流失用户在缩减,我们前期的措施取得了较好的成果,我们应该采用更多的措施来满足用户的需求。   分解要素: 结论:我们的措施取得了成效 证据:APP净流失用户在缩减   产品运营提问: 问题1、这里的流失用户定义是什么?   批判性思维之1: 有歧义/抽象 的词语意义再 明确。   抽象概念:一个概念,距离具体的实物越远,就越抽象,越需要明确的定义。     在讨论需求时候,经常需要大家对口径,就是因为每个人因为自己背景的不同,对一个定义的概念都可能不同,再简单的概念,也需要进行核对。比如大家在讨论活跃用户数,有些人用的是登录,有些人用的是注册,有些人认为需要到浏览等等。   问题2、APP净流失用户在缩减是由于季节等周期性因素等还是我们的活动有了效果?拉长周期看是什么表现?   批判性思维之2: 有没有替代原因   相关关系不代表是因果关系;有时候我们也倾向于过度简化因果关系。需要更多视角去寻找可能的原因。   场景2: QA工程师: 因为我们显示桌面红点,导致1-3月份用户投诉增加30%,为了用户体验,我们需要把和不和用户直接关联,如交易支付,回帖等的红点场景完全关闭   分解要素: 结论:把有些红点场景完全关闭 证据:1-3月份用户投诉增加30% 隐含的价值观假设:用户体验>产品其他指标   产品运营提问: 问题1、 QA从用户体验高于产品活跃指标的价值观假设对现阶段业务形态是否适合?我们现阶段正处于快速吸引用户,扩大规模状态,需要更多引入用户。所以从业务方角度,我们认为产品活跃暂时大于对用户的打扰 批判性思维3: 寻找价值观假设。在证据和结论之间,有些内在的想法是没有说出来的,但是会和说出来的理由同样重要。 站在不同的角色、人物背后,我们代表了不同的组织利益、个人利益。每个人的价值观也不同,有些时候,我们认为理所当然的假设,别人未必认可。   最近“特斯拉的刹车失灵”很出名。特斯拉前期的表现违背了我们普通人的价值观假设,安全第一,其他的价值在安全之后。 一 开始我也很意外,觉得不可思议 仔细想想,站在特斯拉的角度,却是,“这是新产品发展过程中不可避免的,为了争抢市场份额,我们需要暂时牺牲安全选项”。所以我们代表的利益不同。   问题2、我们是否有其他更好的办法,可以平衡用户体验和产品指标,比如把不直接关联的信息,让用户去选择是否允许发送,或者采用智能营销手段发送,给最可能接受的用户来发送   批判性思维4: 虚假的两难选择谬误:注意“不是....就是...."、"唯一的选择就是...."等等。此时要停下来想想,是否有其他选择? 场景3: 产品运营:竞品A已经做了这个功能,并且已经全量了,说明用户对这个产品是有这个需求的。如果我们不做,用户可能流失,所以我们产品也要这个功能。   分解要素: 结论:我们产品也需要有竞品这个功能 证据:竞品A已经全量了这个功能   老板提问: 问题1、这个产品功能是否需要大量的人工维护和运营?我们是否有背后的资源?我们的目标用户群体是否有竞品那么大的规模,值得我们投入这么大的资源投入? 批判性思维5: 是否省略了重要信息 一件事情要成功,可能不止一个原因,更可能是全方面的PK。所以如果从一个点就推出来我们接下来需要做什么,可能还是省略了能够成功的重要信息。   批判性思维6: 我们需要知道确切的数字 知道做这件事有用还不够,还需要知道做这件事情的投入产出比例。能够满足用户需求还不够,还需要知道能满足多少用户的需求,这些用户的价值多少,能带来多少收益?     场景4: 分析师: 我们的累计千万读者的自媒体的月活跃用户中90%不付费阅读频次低,2%用户有赞赏阅读频次高,所以我们需要对90%的用户进行再细分进行用户运营,提升活跃,促进他们进入知识星球。   分解要素: 结论:细分不付费用户,拉新进入知识星球 证据:90%月活跃用户都是不付费用户   产品运营提问: 问题1、如何从这个证据得出来要分群运营的?我们该不该进行分群运营?我们是不是要促进他们付费进入星球?   批判性思维7: 证据和结论之间的逻辑关系 场景5: 分析师:这次产品改版AB测试现实,我们的核心指标-用户下单(次)率-降低了2%,不符合预期,版本需要被覆盖   分解要素: 结论:产品改版不符合预期 证据:核心指标下降了2%   产品运营提问: 问题1:这次改版我们从大量投放了广告和发放了push,转化率会因此可能因为非目标用户引入而下降,那整体GMV增长了多少?长期用户增加多少?     批判性思维8: 带有偏见的数字/不合理的衡量数字   构建合理的指标引导到合理的结论是分析师的一个重要方法。如果指标构建的不合理,或者指标本身不合理,都对结论有影响。   还有一些常见的 ”诉诸权威“、”诉诸公众“这类,利用我们”对权威的服从“,”从众心理“、以及”诉诸情感“,”光环效应“或者”人身攻击“,利用我们的情绪化按钮 ,以后再举例说明。
数据可视化 | 你会颜色搭配嘛?
大家好,我是小五🧐 颜色的搭配 在数据可视化的视觉表现中起着举足轻重的作用。 一个可视化作品呈现到用户面前,色彩占据了主导位置,色彩心理学曾讲到,每个颜色可以给人不同的感受。美国一个权威的色彩理论研究,调查了语义与色彩的联系。 那么表现安全感、速度感的最佳颜色是什么? 快快学起来,让你的配色更加有理有据。  
如何正确使用数据可视化图表?
如果你已有一组或两组可靠的统计,并准备分享给你的听众。写出来?画张图?用表格?为了确保你的听众理解信息,统计的呈现必须要可信和精确。    然而可视化类型的选择,既不是纯粹美学也不是完全个人化。一个不合适的方案,受众可能会觉得乏味或者费解,甚至兼而有之。更有甚之, 不精确的数据可视化会造成你和你听众之间的信任壁垒。    所以,让我们浅析如何选择最精确和有趣的方式来可视化你的数据。     01 条形图     对于随时间发展或按多个类别(如不同行业或货物或两者)分组的数据集,条形图是一个可靠的选择。以下是一些有助于保证条形图易于阅读的技巧:   按发生时间顺序排列条形图。 按发生时间顺序排列条形图。 避免对数据由高到低或由低到高排序,按发生时间顺序对受众是更优计量法则。   对于包含多个类别的条形图,你可以为每个类别创建单独的图形,也可以在每个时间标签上合成多个条形图(每个类别一个)为一个。这些条可以并排排列,也可以堆叠在一起,如图中蓝牙的交互式年度报告所示:   支持蓝牙的设备遍布全球(十亿级别)。节选自一份蓝牙交互报告,由杀手视觉策划设计。   如果数据集被分组为多个类别,并且没有时间规律,可将数据由多到少或由少到多排序。这种组织方式有助于迅速得出结论。然而,如果数据累加起来为一个整体,例如分类总收益,用条形图表现就不是很显著。对于这种类型的信息,应该改用饼图。我接下来很快会说到。     02 折线图     与条形图非常类似,折线图对于显示随时间变化的数据或按类别分组的数据非常有用。但线图可以包含微末细节。对于展示长时间跨度的信息,或者显示大量增量变化的数据,折线图是个极佳的选择。这是因为折线图的天然属性允许它在更细的粒度弯曲和变化。   一张没人看得懂的漂亮图表就只是抽象艺术。   事实上,你应该在折线图只有几个时间点的数据时小心一点。当你不知道精确的数据来填充两个已知数据点之间的时间段,只能画出一条预测的直线。然而,这两个时期之间的增长率或下降率可能没那么线性。因此,折线图应谨慎使用,并与完整的数据集一起使用,以避免数据失真。   Allen Downey在他的文章中用折线图举了一个很好的例子,文章关于是否第一胎婴儿更可能晚产。他用一个折线图来描绘九周内出生的可能性:     考虑到这个图表是基于30000多个数据点(每个点记录一个真实的出生)的,这些数据完全足够表征所有的增量变化,并得出一个平均分布。   如果不按时间或类别展示数据,使用折线图则不适合。不过,分类数据有许多有用的图表运用形式。下面是另一种极佳的选择展示对于一个整体的比例。     03 饼图和圈图     圆图是被最广泛使用的数据可视化形态之一。圆图包括饼图(实心)和圈图(中空,周边为圆形数据条)。   这种类型的图表非常流行,糟糕的是,它也是最常被错误使用的数据可视化类型之一。   只有当你展示的各部分加起来是一个整体时,才能使用圆图。例如,“75%的毛虫喜欢苹果”可以用饼图显示,因为它指的是所有毛虫100%中的75%。   你还可以将比例转换为此目标的百分比。如果数据点是四分之三的毛虫,那就相当于75%的毛虫。   不精确的数字可视化构成了你和受众之间的信任障碍。   不像条形图和折线图,圆图不能展现增长或减少趋势。来看一个能表达我意思的案例,一份来自Tubular Insights的视频市场统计。    2016年至2017年间,在YouTube上品牌视频内容浏览量增长了99%。下图中显示99%的圆图就不对。这将使它看起来像99%的视频观看是品牌视频,然而事实并非如此。取而代之的是,您需要带有两个条形数据的条形图,一个表示2016年的基线浏览量,另一个表示比该基线增长99%:     这个案例可能不是很直观。如果你不经常处理百分比数据,百分比的变化可能会很棘手。Investopedia的这张备忘单可以帮助您处理这种类型数据。   如果要使用饼图来展示随时间变化的数据,则需要为测量数据的每个时段创建一个新图表,并将它们一起显示以进行比较。     04 数量图     数量图是一个用重复的符号或图标展示数量的图标。一个常见的例子是使用多个人物图标来展示的人的数量。你可能发现,浴室门上用经典的男女图标就是这种方法。   数量图非常适用于较小数量(比如“我们街上新开了12家餐馆”)。它们也适用于小百分比或小比例的饼图。例如,“我们的街上四分之三的餐馆在卖披萨”。   对于较大的数字,数量图通常不起作用。想象一下,你的统计数据是“2018年售出11214件商品”。你的设计中没有11214个图标的空间——如果你认为你有,我建议你再想想!这是一个庞大的数字来一一列举。所以,很自然联想到增加一个代表物——“1个购物袋=1000件商品”,然后只显示11个购物袋。没错吧?   不精确的数字可视化构成了你和受众之间的信任障碍。   你可能是想展示这是一个巨大的,令人印象深刻的数字。但是当你这样缩减数量,可视化的效果却会适得其反。即使有代表物,十一个购物袋看起来可能感觉都没有那么大。数字“11214”本身更有说服力。(我会稍后讨论为什么版面设计更适合这些统计数据。)   比例也是相似的情况。例如,想象一下使用数量图可视化统计数据“2018年售出的11214件商品中有8370件是杯子”,还是算了!所以如果你需要一个代表物来说明它,数量图并不是一个合适的选择。   如果你的统计到目前为止符合数量图,你该思考下该使用什么象形图。注意:象形图非常简单,可能会对于严肃主题过于贫乏。你不会让简单图标让你严肃主题变得特别琐碎吧。   如果你的统计体量过大或者不适合象形图,排版设计是个轻松的弥补方案。现在就说说在什么时候怎么样把它结合进你的设计。     05 排版设计     我敢打赌你没想到在一篇关于数据可视化的文章中会看到关于排版的部分。但如果使用正确,排版设计确实可以让信息生动起来。   事实上,在很多局限的情形中,排版确实是最好的解决方案。显然,你不应该仅仅因为做视觉效果而选择排版。不要寻求老的仅含文本的解决方案!取而代之的是,聪明地使用排版来获得一个成功而有效的内容。   如果出现以下情况,您的数据点或数字就会是一个很好的排版元素:   数据很大(大于100)。 并不是整体的百分比或者增加/减少的百分比。 数据独立——不与其他数据比较。   在开始排版之前,请对照上面的每一点检查你的数据,并考虑我已经讨论过的其他类型的数据可视化。你应该在排版前排除所有其他可能性。这是因为视觉效果明显地更有吸引力、更有效地吸引你的受众。然而,视觉效果只有在准确的时候才是有效的。如果你的数据可视化带来了困惑或者不精确,那就使用文字。   一个增强排版效果的方法是将它与一个象形图(就在数量表用的一样,一个就行)、一个图标或一个插图结合起来。这将有助于为观看者提供有关统计主题的可视上下文,同时让数字本身表达该有的意思。   这里挑选了一个针对不同类型数据可视化(包括排版)案例,其中也包含了排版:   来源:Killer Visual Strategies   在这个例子中,使用数量图可视化数字16是有意义的——它是小数字,因此很容易直观地相加。但是180万的统计数据如果使用数量图一一列举,就会难以理解。正如前文提到的,如果你觉得需要使用一个代表物,比如将每个图标的数量等同于100或1000个,那么选择数量图就不合适。这就是为什么很大的数字通常最好留给排版处理。   无论哪种解决方案最适合你的数据,美学考虑横跨了所有形式的数据可视化。除了单纯地使用合适的数据可视化技术外,你还必须使用正确的美学语言展示信息并传达给受众。一个有趣的现代霓虹灯式折线图,可能就不适用于投资者和企业高管。一个平面灰度的饼图就不合适出现在夏季露营手册上。   所以,一定要确保形式和功能被同等考虑——因为一张没人看得懂的漂亮图表就只是抽象艺术。  
个人成就
内容被浏览50,157
加入社区3年131天
返回顶部