1、鸢尾花数据集
鸢尾花数据集(Iris)是一类多重变量分析的数据集。最初是埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据。它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中,被用来介绍线性判别式分析,证明分类的统计方法。该数据集是在机器学习领域一个常用的数据集。
其数据集包含了150个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾(Iris Setosa,Iris Versicolour,Iris Virginica),每类50个样本。四个特征被用作样本的定量分析,它们分别是花萼和花瓣的长度和宽度。基于这四个特征的集合,Fisher发展了一个线性判别分析以确定其属种。
该数据集测量了所有150个样本的4个特征,分别是:sepal length(花萼长度)、sepal width(花萼宽度)、petal length(花瓣长度)、(花瓣宽度)。以上四个特征的单位都是厘米(cm)。
|
|
|
山鸢尾(Iris Setosa)
|
变色鸢尾(Iris Versicolour)
|
维吉尼亚鸢尾(Iris Virginica)
|
详细数据集可以在UCI 数据库(http://archive.ics.uci.edu/dataset/53/iris) 中找到。
2、数据处理
在FineBI6.0中上传数据集iris.xls (38 K)。
特征名
|
特征解释
|
数据类型
|
sepal_length
|
花萼长度(单位cm)
|
数值型
|
sepal_width
|
花萼宽度(单位cm)
|
数值型
|
petal_length
|
花瓣长度(单位cm)
|
数值型
|
petal_width
|
花瓣宽度(单位cm)
|
数值型
|
species
|
种类
|
文本型
|
为了方便,在原数据集中增加了特征ID(数值型)。
对数据做简单处理,把ID改为文本型,其他特征名称改为中文。
3、数据可视化
3.1 花萼长宽分布
图表类型选择“散点图”,横轴“花萼长度”,纵轴“花萼宽度”,细粒度“ID”,颜色“品种”。调整下值轴最小值“3”,最大值“9”,左值轴最小值“1”,最大值“5”。
3.2花瓣长宽分布
同一方法可以得到花瓣长宽分布。
散点图显示,花瓣长和宽有较强的相关性。
3.3 其他相关性
也可画出其他散点图,显示不同数量关系间的相关性,如花瓣长度和花萼长度之间的关系。
3.4花瓣长度箱型图
图表类型选择“自定义图表”,横轴“品种”,纵轴“花瓣长度”2次,细粒度“ID”,颜色“品种”。图形属性中,第一个“花瓣长度”为”箱型图“,第二个“花瓣长度”为”点“。
3.5数据分布面积图
为了排序方便,此处添加一个计算字段“序号”,IF(LEN(${ID})=1,CONCATENATE("00",${ID}),(IF(LEN(${ID})=2,CONCATENATE("0",${ID}),${ID}))),把ID都变成三位数字。
图表类型选择“范围面积图”,横轴“序号”,纵轴“花瓣长度”“花瓣宽度”“花萼长度”“花萼宽度”,颜色“指标名称”。
数据集中1-50、51-100、101-150分别是三种不同品种,图中显示出明显差异。
4、总结
鸢尾花(Iris)是一个经典的数据集,数据规整,在数据挖掘和机器学习中经常用来讲解分类算法。使用FineBI6.0可以使用可视化的方法探索特征之间的关系。 |