请上传宽度大于 1200px,高度大于 164px 的封面图片
    调整图片尺寸与位置
    滚轮可以放大缩小图片尺寸,按住图片拖动可调整位置,多余的会自动被裁剪掉
取消
zmdvich(uid:139487)
职业资格认证:FCP-FineBI | FCA-FineBI | FCA-业务分析理论 | FCP-报表开发工程师 | FCP-零代码开发工程师 | FCP-报表交付工程师 | FCA-数据分析理论
FineBI-描述性数据分析
描述性分析就是用少数几个数值(比如平均值、中位数等)描述一系列复杂数据所表达的信息,比如描述数据的整体分布情况、波动情况、数据异常情况。   对一个数据集来说,Excel和Python都有简单的方法显示数据的基本信息。以鸢尾花数据集为例。 1、Excel   1.1在“数据”选项卡下,选择“数据分析模块”。 有的电脑或office版本并不直接显示Excel"数据分析模块",我们可以通过以下步骤加载激活该模块: 单击“文件”选项卡,单击“选项”,然后单击“加载项”类别。 在“管理”框中,选择“Excel 加载项”,再单击“转到”。 在“加载宏”框中,选中“分析工具库”复选框,然后单击“确定”     1.2 选择“描述统计”   1.3结果输出 可以看出,输出数据基本的统计指标。 2、Python   在Python中也可以轻松得到这样的结果     3、FineBI FineBI中有多种方法查看数据统计信息   3.1 在FineBI中导入数据集,直接点击字段,预览下方会自动出现校验数据。   其中数值字段,显示该列“求和”、“平均”数值,文本/日期字段,显示该列“去重计数”数值。     3.2 想得到Excel和Python类似的结果,选择数值型特征,使用“列转行”       修改字段名称。     3.3 分组汇总,按“特征”分组,把“特征值”拖到汇总栏,分别修改为“求和”、“中位数”等。     4、总结  描述性数据分析主要获得各个指标的统计信息, 以找出这些数据的内在规律。  
FineBI上永远的科比
科比·布莱恩特 (Kobe Bryant,1978年8月23日—2020年1月26日),NBA传奇巨星,这个名字已成为篮球运动的代名词之一。他不仅是一位出色的篮球运动员,更是一位充满传奇色彩的人物。他凭借独特的比赛风格、不屈的斗志和无与伦比的竞技状态,赢得了世界篮球爱好者的尊敬和喜爱。20年的职业生涯,科比5次获得NBA总冠军夺冠、1次NBA常规赛MVP、2次NBA总决赛MVP、4次NBA全明星赛MVP、 2次NBA赛季得分王。  Kaggle网站曾经公布一个数据集,Kobe Bryant Shot Selection。主要内容是探索科比20年NBA生涯的数据,包括进攻方式,出手距离和出手区域,命中率等。这里我们想使用FineBI作为可视化工具也来看看这位巨星的风采。 1 数据来源   官网:https://www.kaggle.com/c/kobe-bryant-shot-selection/data 数据描述:   特征名称 含义   action_type 进攻方式(更具体)   combined_shot_type 进攻方式 Jump Shot跳投 Dunk扣篮 Layup上篮 Tip Shot补篮 Hook Shot勾手 Bank Shot擦板 game_event_id 比赛时间id   game_id 比赛ID   lat 投篮点   loc_x 投篮点 投篮点 X 轴坐标,取 -250-250 不等的整数,单位为 0.1 英尺 loc_y 投篮点 投篮点 Y 轴坐标,取 -53-887 不等的整数,单位为 0.1 英尺 lon 投篮点   minutes_remaining 单节剩余时间(分钟)   period 表示第几节   playoffs 是否是季后赛   season 赛季   seconds_remaining 剩余时间(秒)   shot_distance 投篮距离 投篮点与篮筐中心的直线距离,取 0-92 不等的整数,单位为英尺 shot_made_flag 是否进球 投进为 1,否则为 0 shot_type 两分球或三分球 2PT Field Goal 两分球 3PT Field Goal 三分球 shot_zone_area 投篮区域 Right Side(R)右侧 Left Side(L)左侧 Left Side Center(LC)左侧中央 Right Side Center(RC)右侧中央 Center(C)中心 Back Court(BC)后场 shot_zone_basic 投篮区域(更具体) Mid-Range中投 Restricted Area限制性区域 In The Paint (Non-RA)三秒区 Above the Break 3非底角三分 Right Corner 3右侧底角三分 Backcourt后场 Left Corner 3左侧底角三分 shot_zone_range 投篮范围 16-24 ft.16-24 英尺 8-16 ft.8-16 英尺 Less Than 8 ft.小于 8 英尺 24+ ft.大于 24 英尺 Back Court Shot后场投篮 team_id 球队ID   team_name 球队名称   game_date 比赛日期   matchup 比赛双方   opponent 对手   shot_i 投篮ID     一共25个特征,30697条记录。   2 数据处理   在FineBI6.0中上传数据集data.csvdata.xls (9.76 M)。“字段设置”选择部分特征。     过滤掉“shot_made_flag”为空的数据,剩余25697条记录。     把“shot_made_flag”、“shot_id”字段类型改为文本型。     3 数据可视化 3.1 投篮情况分析   新建组件,设置散点图,横轴”loc_y“,纵轴”loc_x“,颜色“shot_made_flag”,细粒度“shot_id”,设置大小为”2“,调整颜色和图例位置。其中“0”为红色,表示未投进,“1”为绿色,表示投进。     制作柱状图,显示命中率为44.62%。     再具体分析发现,投二分球的次数明显多于三分球,命中率也高于三分球。     3.2投篮区域分析     新建组件,设置散点图,横轴”loc_y“,纵轴”loc_x“,颜色“shot_zone_area”,细粒度“shot_id”,设置大小为”2“,调整颜色和图例位置。     绘制条形图,显示在Center(C)和Right Side Center(RC)投篮次数较多。     使用shot_zone_basic进行投篮区域更具体的分析。       3.3投篮范围分析   与以上相似,颜色设置为“shot_zone_range”       3.4投篮准确度   新建汇总列“投篮范围准确度”、“投篮区域准确度”、“投篮区域(更具体)准确度”。         以投篮范围准确度为例,新建组件,设置散点图,横轴”loc_y“,纵轴”loc_x“,颜色“投篮范围准确度”,细粒度“shot_id”,设置大小为”3“,调整颜色和图例位置。     同理可得投篮区域准确度和投篮区域(更准确)准确度。     4总结   一位伟大的球星离开了,留下了许多经典的瞬间,借助FineBI6.0这样专业的软件,我们可以从另一个角度一睹巨星的风采。          
FineBI上的鸢尾花
1、鸢尾花数据集 鸢尾花数据集(Iris)是一类多重变量分析的数据集。最初是埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据。它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中,被用来介绍线性判别式分析,证明分类的统计方法。该数据集是在机器学习领域一个常用的数据集。 其数据集包含了150个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾(Iris Setosa,Iris Versicolour,Iris Virginica),每类50个样本。四个特征被用作样本的定量分析,它们分别是花萼和花瓣的长度和宽度。基于这四个特征的集合,Fisher发展了一个线性判别分析以确定其属种。 该数据集测量了所有150个样本的4个特征,分别是:sepal length(花萼长度)、sepal width(花萼宽度)、petal length(花瓣长度)、(花瓣宽度)。以上四个特征的单位都是厘米(cm)。 山鸢尾(Iris Setosa) 变色鸢尾(Iris Versicolour) 维吉尼亚鸢尾(Iris Virginica)   详细数据集可以在UCI 数据库(http://archive.ics.uci.edu/dataset/53/iris) 中找到。 2、数据处理   在FineBI6.0中上传数据集iris.xls (38 K)。   特征名 特征解释 数据类型 sepal_length 花萼长度(单位cm) 数值型 sepal_width 花萼宽度(单位cm) 数值型 petal_length 花瓣长度(单位cm) 数值型 petal_width 花瓣宽度(单位cm) 数值型 species 种类 文本型 为了方便,在原数据集中增加了特征ID(数值型)。 对数据做简单处理,把ID改为文本型,其他特征名称改为中文。   3、数据可视化   3.1 花萼长宽分布   图表类型选择“散点图”,横轴“花萼长度”,纵轴“花萼宽度”,细粒度“ID”,颜色“品种”。调整下值轴最小值“3”,最大值“9”,左值轴最小值“1”,最大值“5”。     3.2花瓣长宽分布   同一方法可以得到花瓣长宽分布。   散点图显示,花瓣长和宽有较强的相关性。   3.3 其他相关性   也可画出其他散点图,显示不同数量关系间的相关性,如花瓣长度和花萼长度之间的关系。 3.4花瓣长度箱型图   图表类型选择“自定义图表”,横轴“品种”,纵轴“花瓣长度”2次,细粒度“ID”,颜色“品种”。图形属性中,第一个“花瓣长度”为”箱型图“,第二个“花瓣长度”为”点“。 3.5数据分布面积图   为了排序方便,此处添加一个计算字段“序号”,IF(LEN(${ID})=1,CONCATENATE("00",${ID}),(IF(LEN(${ID})=2,CONCATENATE("0",${ID}),${ID}))),把ID都变成三位数字。     图表类型选择“范围面积图”,横轴“序号”,纵轴“花瓣长度”“花瓣宽度”“花萼长度”“花萼宽度”,颜色“指标名称”。     数据集中1-50、51-100、101-150分别是三种不同品种,图中显示出明显差异。 4、总结 鸢尾花(Iris)是一个经典的数据集,数据规整,在数据挖掘和机器学习中经常用来讲解分类算法。使用FineBI6.0可以使用可视化的方法探索特征之间的关系。
泰坦尼克号桑基图
1、项目简介 泰坦尼克号的沉没是世界上最严重的海难事故之一。1912年4月15日,在她的处女航中,被广泛认为“永不沉没”的皇家邮轮泰坦尼克号在与冰山相撞后沉没。不幸的是,船上没有足够的救生艇,导致2224名乘客和船员中的1502人死亡。 泰坦尼克号数据集为1912年泰坦尼克号沉船事件中相关人员的个人信息以及存活状况。包含了2224名乘客和船员的姓名、性别、年龄、船票等级、船票价格、船舱号、登船港口、生存情况等信息。这些历史数据已经被分为训练集和测试集,我们可以根据训练集训练出合适的模型并预测测试集中的存活状况。 2、数据集 数据集来源:https://www.kaggle.com/c/titanic 这里使用泰坦尼克号数据集的训练集(titanic_train.csv)进行数据分析。 泰坦尼克号数据集的训练集有891个样本,12个特征和标签 数据集的属性信息如下:   特征/标签 说明 PassengerId 乘客编号 Survived 是否幸存,1是,0否 Pclass 船舱等级,1(一等)、2(二等)、3(三等) Name 乘客姓名 Sex 乘客性别 Age 乘客年龄 SibSp 与乘客同行的兄弟姐妹及配偶人数 Parch 与乘客同行的父母及子女人数 Ticket 船票编号 Fare 船票价格 Cabin 乘客座位号 Embarked 乘客登船码头,C(Cherbourg瑟堡)、Q(Queenstown昆士敦)、S(Southampton南安普顿) 3、数据处理 3.1 导入数据 选择PassengerId 、Survived、Pclass 、Sex、Age 、Embarked 等6个特征,并把PassengerId 、Survived、Pclass设置为“文本型”。   3.2 过滤 过滤掉Age 、Embarked为空的记录,剩余712条记录。         3.3新增赋值列 新增“是否生存”、“船舱等级”、“性别”、“登船码头”等赋值列。               新增“年龄”赋值列,对age分段赋值。     选取新生成的字段。   3.4 分组汇总 按“登船码头”、“船舱等级”分组,PassengerId去重计数     修改字段名分别为”起点“、”终点“、”人数“,另存为“港口-客舱等级”。     同样方法,分别对“客舱等级”、“性别”汇总,另存为“客舱等级-性别” 对“性别”、“年龄”汇总,另存为“性别-年龄” 对“年龄”、“是否生存”汇总,另存为“年龄-生存” 3.5 上下合并 对“港口-客舱等级”、“客舱等级-性别”、“性别-年龄”、“年龄-生存”进行上下合并,得到新表。     4 桑基图组件 新建“桑基图”组件,在图形属性中设置“起点”、“终点”、“大小”和“颜色”。     在仪表板上添加组件即可。
个人成就
内容被浏览14,137
加入社区6年250天
返回顶部