FineBI上的鸢尾花

zmdvich

1、鸢尾花数据集

鸢尾花数据集（Iris)是一类多重变量分析的数据集。最初是埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据。它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中，被用来介绍线性判别式分析，证明分类的统计方法。该数据集是在机器学习领域一个常用的数据集。

其数据集包含了150个样本，都属于鸢尾属下的三个亚属，分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾（Iris Setosa，Iris Versicolour，Iris Virginica），每类50个样本。四个特征被用作样本的定量分析，它们分别是花萼和花瓣的长度和宽度。基于这四个特征的集合，Fisher发展了一个线性判别分析以确定其属种。

该数据集测量了所有150个样本的4个特征，分别是：sepal length（花萼长度）、sepal width（花萼宽度）、petal length（花瓣长度）、（花瓣宽度）。以上四个特征的单位都是厘米（cm）。


山鸢尾（Iris Setosa）	变色鸢尾（Iris Versicolour）	维吉尼亚鸢尾（Iris Virginica）

详细数据集可以在UCI 数据库（http://archive.ics.uci.edu/dataset/53/iris ）中找到。

2、数据处理

在FineBI6.0中上传数据集iris.xls (38 K)。

特征名	特征解释	数据类型
sepal_length	花萼长度（单位cm）	数值型
sepal_width	花萼宽度（单位cm）	数值型
petal_length	花瓣长度（单位cm）	数值型
petal_width	花瓣宽度（单位cm）	数值型
species	种类	文本型

为了方便，在原数据集中增加了特征ID（数值型）。

对数据做简单处理，把ID改为文本型，其他特征名称改为中文。

3、数据可视化

3.1 花萼长宽分布

图表类型选择“散点图”，横轴“花萼长度”，纵轴“花萼宽度”，细粒度“ID”，颜色“品种”。调整下值轴最小值“3”，最大值“9”，左值轴最小值“1”，最大值“5”。

3.2花瓣长宽分布

同一方法可以得到花瓣长宽分布。

散点图显示，花瓣长和宽有较强的相关性。

3.3 其他相关性

也可画出其他散点图，显示不同数量关系间的相关性，如花瓣长度和花萼长度之间的关系。

3.4花瓣长度箱型图

图表类型选择“自定义图表”，横轴“品种”，纵轴“花瓣长度”2次，细粒度“ID”，颜色“品种”。图形属性中，第一个“花瓣长度”为”箱型图“，第二个“花瓣长度”为”点“。

3.5数据分布面积图

为了排序方便，此处添加一个计算字段“序号”，IF(LEN(${ID})=1,CONCATENATE("00",${ID}),(IF(LEN(${ID})=2,CONCATENATE("0",${ID}),${ID})))，把ID都变成三位数字。

图表类型选择“范围面积图”，横轴“序号”，纵轴“花瓣长度”“花瓣宽度”“花萼长度”“花萼宽度”，颜色“指标名称”。

数据集中1-50、51-100、101-150分别是三种不同品种，图中显示出明显差异。

4、总结

鸢尾花（Iris）是一个经典的数据集，数据规整，在数据挖掘和机器学习中经常用来讲解分类算法。使用FineBI6.0可以使用可视化的方法探索特征之间的关系。

放大镜 · 发表于 2024-5-29 09:44:15

您好，您此次内容角度较为创新，从鸢尾花图形入手去展示整个制作流程。但是整个文章格式有些混乱，首先文本字体字号需要调整一下，字体颜色可以调整为黑色；其次在部分重要流程中，可以修改字体颜色，或者增加背景色，增强可读性；最后在绘制图案时，可以在图上进行标注，突出侧重点。再次感谢您的投稿，期待您的下一篇文章~

小机灵 · 发表于 2024-5-29 10:02:34

第一次看到这种花的制作，长见识了

帆软用户nIz85sXiYM · 发表于 2024-5-30 10:54:12

请教个问题，当两个不同的表数据融合的时候，由于另外一张表城市选项没有带”市“这个字，比如上海市和上海，由于字段不同，导致两张表数据无法融合，怎么解决？

4回帖数	1关注人数	4488浏览人数
最后回复于：2024-6-4 19:29

提问