【2022BI数据分析大赛】中国家庭金融资产配置状况分析

楼主
我是社区第1041868位番薯,欢迎点我头像关注我哦~

默认标题_Word模板_2022-04-23+22_28_24

 

一、选手简介

1.个人选手

帆软社区用户骆珞洛,目前是一名金融专硕研究生,就读于上海大学,研究领域为中国家庭资产配置。

2.参赛初衷

(1)对数据可视化分析具有浓厚兴趣,通过观看视频教程、阅读论坛经验和接受专家指导等方式快速熟悉对FineBI的运用,丰富可视化经验,提升个人竞争力;

(2)学习FineBI各路大神的分析思维,了解更多业务场景、分析模型,提升数据分析能力;

(3)在日常学习中经常会涉及数据分析,比如毕业论文写作,希望学习运用FineBI直观展示数据关系,挖掘数据价值。

 

二、作品介绍

1.业务背景

近年来,我国经济总量不断迈上新台阶,收入水平明显提升,居民财富持续积累,投资理财需求增加。在政府、学界和业界的努力下,中国居民理财意识增强,加之党中央提出“房住不炒”政策的背景下,房价趋于稳定,家庭对于投资金融产品的热情日益高涨,家庭巨大的金融产品消费潜力也将得到释放。合理的家庭资产配置有助于提升家庭收入、实现财富保值增值、缩小社会贫富差距、早日迈向共同富裕。为此,本次运用中国家庭金融调查(China Household Finance Survey,CHFS)数据,分析中国家庭金融资产配置状况和风险资产持有家庭画像,用数据展示所存在的问题,最后为中国家庭资产配置的优化提供政策意见和建议。

 

2.数据来源

本次分析运用的数据为中国家庭金融调查(China Household Finance Survey,CHFS)数据,中国家庭金融调查是在全国范围内开展的一项抽样调查项目,旨在收集家庭金融微观层面的相关信息,包含的内容有住房资产和金融财富、负债和信贷约束、收入和消费、社会保障和保险、代际转移支付、人口特征与就业以及支付习惯等相关信息,对家庭经济和金融行为进行了全部细致的刻画。目前,中国家庭金融调查分别于2011年、2013年、2015年、2017年和2019年成功完成了五轮实施并公开了调查数据,并且于2021年开启第六次调查。中国家庭金融调查数据具有全国、省级和副省级代表性,提供了高质量的微观家庭金融数据。

特别说明:CHFS数据在考量家庭资产配置时以整个家庭为受访单位,在考量人口特征时以一个受访者为受访单位,本文选用户主特征作为家庭投资者特征进行分析。

 

3.分析思路

图 1:分析思路

 

4.数据处理

4.1 数据清洗

数据集通常存在缺失值和异常值。对于缺失值,每年调查数据存在两类变量缺失值,一类是因为问卷逻辑跳转产生的信息缺失,另一类是在实际访问过程中,由于受访者认知差异、配合情况、访员理解或填答错误等原因引起的缺失值。此外,每年的调查问卷数据存在差异,由于2011年调查数据缺少两个变量值,故本文采用的数据为2013年、2015年、2017年和2019年CHFS调查数据,并在这四年的数据基础上剔除缺失值样本。对于异常值,一是年龄变量,本文保留年龄段位于18-80岁的客户,第二是家庭人数,当家庭人数为0时代表样本存在异常。在剔除缺失值和异常值之后,最终获得2013年25661个样本、2015年24663个样本、2017年27251个样本以及2019年22730个样本,总计100305个样本,样本的初始值和最终值如下表所示。

表 1:样本数量

年份

样本初始值

样本缺失值

样本最终值

2013

28141

2480

25661

2015

37289

12625

24663

2017

40011

12760

27251

2019

34643

11913

22730

 

4.2 构建自助数据集

4.2.1 选字段

Excel表中包含100305户家庭所有指标,选中所有字段。

图 2:选字段操作截图

4.2.2 字段设置

当字段内容为数字时,FineBI会将其自动识别为数值类型,而年份、住房资产数和家庭人数这些字段虽然是数字,但在后期数据运用中是作为分组标准,故将这些指标由数值类型转换为文本类型。

图 3:字段设置操作截图

 

5.可视化报告

5.1 数据含义表达

Excel中的各项指标由作者根据中国家庭金融调查问卷和数据整理,以下为本次分析所使用指标名称及定义说明。

表 2:指标名称及定义说明表

指标名称

指标定义

家庭编号

每一户家庭拥有一个单独的编号

性别

家庭户主的性别

年龄

家庭户主的年龄,保留户主年龄位于18-80的样本,并将年龄分为18-30岁、31-40岁、41-50岁、51-60岁、61-70岁、71-80岁这六档。

学历状况

家庭户主的学历状况,分为没上过学、小学、初中、高中、中专\职高、大专\高职、大学本科、硕士研究生、博士研究生九类

婚姻状况

家庭户主的婚姻状况,分为未婚、已婚、同居、分局、离婚和丧偶六类。

健康状况

家庭户主的健康状况,分为非常健康、健康、良好、不健康和非常不健康六类。

风险态度

家庭户主的风险态度,分为高风险、略高风险、平均风险、略低风险和无风险五类。

幸福感

家庭户主对自己生活的幸福感知,分为非常幸福、幸福、一般、不幸福和非常不幸福五类。

是否购买

社会医疗保险

家庭户主是否拥有社会医疗保险

是否购买

社会养老保险

家庭户主是否拥有社会养老保险

是否购买商业保险

家庭户主是否购买商业保险

是否参与

住房公积金

家庭户主是否参与住房公积金计划

是否拥有住房资产

家庭是否拥有住房资产

住房资产数

家庭所拥有的住房数量

家庭人数

家庭由多少位成员组成

省份

家庭所在省份

城乡

家庭属于城镇还是乡村

是否持有风险资产1

家庭是否持有风险资产,由1或0表示,其中“1”表示有,“0”表示无。

是否持有风险资产2

家庭是否持有风险资产,由是或否表示。

家庭收入

家庭收入包括工资性收入、农业收入、工商业收入、财产性收入和转移性收入。CHFS 数据库中,部 分家庭收入为负数,主要由于生产经营性项目亏损或者金融市场投资亏损导致。

家庭收入等级

将家庭收入按照数值归为5万以下、5万-10万、10万-20万、20万-50万-50万-100万和100万以上六个等级

家庭财富

家庭净资产,即家庭财富=家庭资产-家庭负债。

续表2

家庭资产

家庭总资产分为金融资产和非金融资产。金融资产包括现金、存款、理财产品、股票、基金、债券、衍生品、非人民币资产、黄金、其他金融资产、借出款、社保账户余额。非金融资产包括农业资产、工商业资 产、房屋资产、商铺资产、土地资产、车辆资产、车库资产和其他非金融资产。

家庭金融资产

家庭金融资产为现金、存款、理财产品、股票、基金、债券、衍生品、非人民币资产、黄金、其他金融资产、借出款和社保账户余额的总和。

家庭风险资产

家庭拥有的理财产品、股票、债券、基金、衍生品、非人民币资产和黄金这七类风险资产的市值总和。

理财产品

家庭所拥有的理财产品市值总和

股票

家庭所拥有的股票市值总和

债券

家庭所拥有的债券市值总和

基金

家庭所拥有的基金市值总和

衍生品

家庭所拥有的衍生品市值总和

非人民币资产

家庭所拥有的非人民币资产市值总和

黄金

家庭所拥有的黄金市值总和

 

5.2 颜色选择及设置

选用深色背景图,以淡黄和浅蓝为主色调,辅以橘红色增强图表的直观性和清晰度,并选用白色和浅绿色作为文字颜色。对于组件,为每个组件设置同一的边框,组件间间隙为10。

 

5.3 报告的内容

5.3.1 标题、背景介绍及特别说明

b4e2c1803f69121508017f6d368a21e

5.3.2 家庭样本数量

①简述

展示样本数量和空间分布以给读者做数据交代

②图表设置

数字文本:使用大号数字以及亮色,以便于一目了然所使用数据的样本数量;

地图:体现样本的空间分布状况,颜色越深代表该省份的样本量越大。

bc7cc32ddc0c486328a176475a5cc57

③分析结果

5.3.3 中国家庭金融资产配置概览

①简述

用数据展现业务背景,探究自2013-2019年间中国家庭财富、收入和各项资产的变化和测算中国家庭金融资产和风险资产的参与情况。

②关键指标制作:中国持有风险资产家庭数量占比

先统计指标:是否购买风险资产家庭=count_agg(是否持有风险资产2),然后对指标进行“组内占比“的二次计算。

③图表设置

推移图:使用柱状图和折线图展示中国家庭平均财富、平均收入、平均金融资产和平均风险资产随时间的变化趋势。

堆积柱状图:比较中国家庭资产、金融资产和风险资产类目下各分类的占比情况以及对同一分类的数值进行横向比较。

仪表盘:根据仪表盘的指针值横向比较中国持有风险资产家庭占比变化,增强仪表板的多元化

③分析结果

5.3.4中国风险资产持有家庭画像

①简述

从家庭所在省份、家庭人数、家庭收入等级、家庭属于乡村还是城镇、是否拥有住房资产、住房资产数量等家庭特征入手,比较不同特征家庭持有风险资产比例,选取明显的特征进行展示。

②关键指标制作

分类汇总不同特征家庭数,某一特征的家庭数=COUNT_AGG(特征指标名称),例各省份所包含的家庭数=COUNT_AGG(省份)

计算不同特征家庭持有风险资产比例=SUM_AGG(是否持有风险资产1)/(记录数)

③图表设置

地图:展现不同省份家庭持有风险资产比例,星型越大表示持有风险资产的比例越高;

矩形树图:根据矩形的面积大小直观的感受出不同特征家庭持有风险资产的比例;

词云:某一收入等级家庭持有风险资产比例越大,该收入等级的字体越突出,给读者视觉冲击,加强读者印象;

对比柱状图:两条柱状分别代表乡村家庭和城镇家庭持有风险资产的比例。

③分析结果

5.3.5 中国风险资产持有家庭户主画像

①简述

从性别、年龄、婚姻状况、学历状况、健康状况、风险态度、幸福感、是否购买社会医疗保险、是否购买社会养老保险、是否购买商业保险、是否参与住房公积金等家庭户主特征入手,比较不同特征户主家庭持有风险资产比例,选取明显的特征进行展示。

②关键指标制作

分类汇总不同特征家庭数,某一特征的家庭数=COUNT_AGG(特征指标名称),例各省份所包含的家庭数=COUNT_AGG(省份)

计算不同特征家庭持有风险资产比例=SUM_AGG(是否持有风险资产1)/(记录数)

③图表设置

气泡图:通过比较圆圈的大小判断某一类别家庭持有风险资产比例的大小;

折线图和柱状图:当家庭类别较多,折线图和柱状图既可以展现不同类别家庭见投资风险资产比例的差异,也可以让图表整洁明了;

雷达图:根据与中心点距离的远近来比价不同健康状况家庭持有风险资产比例的差异;

颜色表格:当家庭类别仅有两类,赋予数字不同的颜色可以突出两类家庭持有风险资产比例的差异。

③分析结果

5.3.6 总结

 

5.4 报告的最终结果

 

三、参赛总结

1.使用FineBI的感想

本次可视化分析报告的制作让我对FineBI的运用更加得心应手,以下是我的使用感受:

  • FineBI为新手小白配备了相应的基础学习课程,使得我们可以快速熟悉软件。此外,FineBI的帮助文档应有尽有,在制作仪表板过程中所遇到的问题基本上都可以解决。
  • FineBI页面简洁明了,提供了丰富的图表样式、一系列的配色方案和仪表板样式,使得我们可以制作出直接美观的报告。
  • 自助数据集可以随时更新,更新完毕后,组件也会同步发生变化。
  • 组件之间可以实时联动,动态的数据一方面增加了数据的趣味性,另一方面便于我们挖掘更多的数据信息。

 

2.参赛总结

在撰写论文之际正好碰到此比赛,于是乎就想着运用论文数据来进行可视化分析,一方面有助于我加强对论文数据的了解,另一方面也可以提高自己在数据分析思维和可视化工具运用方面的能力。自参赛以来,跟随着训练营和直播课程一步步学习,让我收获颇丰,其中最重要的就是已经熟悉了对FineBI的运用,并通过了帆软认证BI工程师(FCBA)的考试。随着计算机信息化普及程度越来越高,我们的日常生活中无时无刻都会产生数据,同样,我们也可以通过数据去了解我们的生活,比如新冠疫情的趋势。数据可视化作为了解数据重要一环,希望自己可以通过学习和实践不断提高数据分析能力,用图表展示数据背后的故事。

分享扩散:

沙发
发表于 2022-5-10 19:29:37
案例打卡:不得不说,楼主的名字真的好有个性。叔叔阿姨真厉害。
非常明显啊,北上广三地持有资产最高,风险资产逐年增多,买股票和黄金的人最多,呵呵。金融专业的眼光就是不一样,数据分析内容学习了,但是建议去掉不必要的图例,这样会更清晰,谢谢分享
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

板凳
发表于 2022-5-10 20:31:14

案例打卡:本小白对“金融投资作品们”只有围观份,一个"只会把钱存银行"的人,学习了!哈哈~~

参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

地板
发表于 2022-5-14 11:31:08
指标名称及定义说明表很不错呢!有助于查阅和理解报告的指标!同时学习了金融资产配置的业务知识,感谢作者分享
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

5楼
发表于 2022-5-14 11:44:51

专业人
6楼
发表于 2022-5-16 16:19:31
完整看完下来,不由得感慨一句:叹为观止。
不愧是专业户出身,整个作品的逻辑、层次、思路、配色、排版、展示效果,都非常出色。
一般这个时候,应该很多同学都很想帖主专门做一期分享,来讲讲怎么做的吧,哈哈!确实非常精彩,也有很多可以学习的地方。其中最难能可贵的是,作品的主题非常明确,图表也非常契合,传达的信息也是简单意骇,容易看得懂。很多人以为花里胡哨的图表才是好图表,其实只要能很好的传达出自己想表达的信息和佐证自己的论点的图表,才是好的图表。
提两个小建议吧:
1、【不同省份家庭持有风险资产比例图】的地理图中,星星图标过大,部分区域被遮盖住了,很难看得到哪些区域是高数值哪些是低数值。建议使用地图热力图(别的图已经用过)或者换成立体圆,或者将星星大小调小一点;
2、【不同收入等级家庭持有风险资产比例图】的词云图中,20万到50万、50万到100万、100万以上这三个标签的大小差不太多,相互比较效果不明显。建议可以叠加同种色系的字体颜色(例如蓝色系),例如数据从小到大一次是浅蓝-蓝-深蓝的这种。

最后说一个小细节,关于结论的严谨性上。既然帖主是研究生,那咱们的标准不妨高一点。
就举一个例子:
在【5.3.3 中国家庭金融资产配置概览】的分析结论中“我国金融市场参与率仍处于低位”这句话,我认为低位和高位是需要通过比较才能得出来的,跟谁比较?跟过去的自己比,还是跟同时期的发展中国家比,还是同发达国家比?虽然有些观点可能是通识,但是从严谨上说,这部分的细节仍然需要考虑进去的。

希望对你有帮助!
参与人数 +1 F币 +6 理由
帆软苏茜 + 6 有效打卡奖励

查看全部评分

7楼
发表于 2022-5-21 14:43:53
很完整的一份作品了,思路清晰,维度指标全面,可视化能明显反映出所要表达的语义,收藏致敬.
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

8楼
发表于 2022-5-26 18:40:32
案例打卡:一个全新的分析逻辑,让人眼前一亮,分析逻辑、整体的搭配都挺好的
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

9楼
发表于 2022-5-30 17:58:32
案例打卡:还专门配有一个封面,作者有心了~能否提供一个仪表盘链接呢,浅浅了解了一下国内资产配置方面的情况,感谢分享
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

8回帖数 3关注人数 14030浏览人数
最后回复于:2022-5-30 17:58

返回顶部 返回列表