
本文将介绍如何使用 scikit-learn 库加载 Iris 数据集,并将其转换为 Pandas DataFrame。我们将展示如何查看 DataFrame 的信息,以及如何使用 `describe()` 方法获取数据集的描述性统计信息。此外,还将介绍两种在 Jupyter Notebook 或类似环境中更美观地显示 DataFrame 的方法。
Iris 数据集是一个经典的数据集,常用于机器学习和数据分析的入门教程。它包含了 150 个样本,每个样本有 4 个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度),以及一个目标变量(鸢尾花的种类)。
加载 Iris 数据集并创建 DataFrame
首先,我们需要从 sklearn.datasets 模块导入 load_iris 函数,并从 pandas 库导入 DataFrame 类。
from sklearn.datasets import load_irisimport pandas as pd
然后,我们可以使用 load_iris() 函数加载 Iris 数据集。
iris = load_iris()
load_iris() 函数返回一个 Bunch 对象,它类似于一个字典,包含了数据集的特征数据、目标变量、特征名称等信息。
接下来,我们可以使用 pandas.DataFrame 类将特征数据转换为 DataFrame。
df = pd.DataFrame(iris.data, columns=iris.feature_names)
这里,iris.data 包含了特征数据,iris.feature_names 包含了特征名称。我们将特征数据和特征名称传递给 DataFrame 构造函数,从而创建一个 DataFrame。
查看 DataFrame 信息
创建 DataFrame 后,我们可以使用 info() 方法查看 DataFrame 的信息,包括列名、数据类型、非空值的数量等。
df.info()
这将输出 DataFrame 的信息,例如:
RangeIndex: 150 entries, 0 to 149Data columns (total 4 columns): # Column Non-Null Count Dtype--- ------ -------------- ----- 0 sepal length (cm) 150 non-null float64 1 sepal width (cm) 150 non-null float64 2 petal length (cm) 150 non-null float64 3 petal width (cm) 150 non-null float64dtypes: float64(4)memory usage: 4.8 KB
查看描述性统计信息
我们还可以使用 describe() 方法查看 DataFrame 的描述性统计信息,包括均值、标准差、最小值、最大值、四分位数等。
df.describe()
这将输出 DataFrame 的描述性统计信息,例如:
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)count 150.000000 150.000000 150.000000 150.000000mean 5.843333 3.057333 3.758000 1.199333std 0.828066 0.435866 1.765298 0.762238min 4.300000 2.000000 1.000000 0.10000025% 5.100000 2.800000 1.600000 0.30000050% 5.800000 3.000000 4.350000 1.30000075% 6.400000 3.300000 5.100000 1.800000max 7.900000 4.400000 6.900000 2.500000
更美观地显示 DataFrame
在 Jupyter Notebook 或类似环境中,可以使用以下两种方法更美观地显示 DataFrame:
df.style: df.style 返回一个 Styler 对象,可以用于格式化 DataFrame 的显示。
df.style
这将以表格形式显示 DataFrame,并且可以进行自定义格式化,例如添加颜色、背景等。
display(df): display() 函数是 IPython 提供的一个函数,可以用于显示各种 Python 对象,包括 DataFrame。
from IPython.display import displaydisplay(df)
display() 函数会自动检测对象的类型,并使用最合适的显示方式。对于 DataFrame,它会以表格形式显示。
注意事项
确保已安装 scikit-learn 和 pandas 库。可以使用 pip install scikit-learn pandas 命令安装。在 Jupyter Notebook 或类似环境中,可以直接运行代码块,查看结果。df.info() 和 df.describe() 方法的输出应该直接调用,不需要放在 print() 函数中。
总结
本文介绍了如何使用 scikit-learn 库加载 Iris 数据集,并将其转换为 Pandas DataFrame。我们展示了如何查看 DataFrame 的信息,以及如何使用 describe() 方法获取数据集的描述性统计信息。此外,还介绍了两种在 Jupyter Notebook 或类似环境中更美观地显示 DataFrame 的方法。掌握这些基本操作,可以为后续的数据分析和机器学习任务打下坚实的基础。
以上就是如何将 Iris 数据集加载到 Pandas DataFrame 中的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1377377.html
微信扫一扫
支付宝扫一扫