如何将 Iris 数据集加载到 Pandas DataFrame 中

如何将 iris 数据集加载到 pandas dataframe 中

本文将介绍如何使用 scikit-learn 库加载 Iris 数据集,并将其转换为 Pandas DataFrame。我们将展示如何查看 DataFrame 的信息,以及如何使用 `describe()` 方法获取数据集的描述性统计信息。此外,还将介绍两种在 Jupyter Notebook 或类似环境中更美观地显示 DataFrame 的方法。

Iris 数据集是一个经典的数据集,常用于机器学习和数据分析的入门教程。它包含了 150 个样本,每个样本有 4 个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度),以及一个目标变量(鸢尾花的种类)。

加载 Iris 数据集并创建 DataFrame

首先,我们需要从 sklearn.datasets 模块导入 load_iris 函数,并从 pandas 库导入 DataFrame 类。

from sklearn.datasets import load_irisimport pandas as pd

然后,我们可以使用 load_iris() 函数加载 Iris 数据集。

iris = load_iris()

load_iris() 函数返回一个 Bunch 对象,它类似于一个字典,包含了数据集的特征数据、目标变量、特征名称等信息。

接下来,我们可以使用 pandas.DataFrame 类将特征数据转换为 DataFrame。

df = pd.DataFrame(iris.data, columns=iris.feature_names)

这里,iris.data 包含了特征数据,iris.feature_names 包含了特征名称。我们将特征数据和特征名称传递给 DataFrame 构造函数,从而创建一个 DataFrame。

查看 DataFrame 信息

创建 DataFrame 后,我们可以使用 info() 方法查看 DataFrame 的信息,包括列名、数据类型、非空值的数量等。

df.info()

这将输出 DataFrame 的信息,例如:

RangeIndex: 150 entries, 0 to 149Data columns (total 4 columns): #   Column             Non-Null Count  Dtype---  ------             --------------  ----- 0   sepal length (cm)  150 non-null    float64 1   sepal width (cm)   150 non-null    float64 2   petal length (cm)  150 non-null    float64 3   petal width (cm)   150 non-null    float64dtypes: float64(4)memory usage: 4.8 KB

查看描述性统计信息

我们还可以使用 describe() 方法查看 DataFrame 的描述性统计信息,包括均值、标准差、最小值、最大值、四分位数等。

df.describe()

这将输出 DataFrame 的描述性统计信息,例如:

       sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)count         150.000000        150.000000         150.000000        150.000000mean          5.843333         3.057333          3.758000         1.199333std           0.828066         0.435866          1.765298         0.762238min           4.300000         2.000000          1.000000         0.10000025%           5.100000         2.800000          1.600000         0.30000050%           5.800000         3.000000          4.350000         1.30000075%           6.400000         3.300000          5.100000         1.800000max           7.900000         4.400000          6.900000         2.500000

更美观地显示 DataFrame

在 Jupyter Notebook 或类似环境中,可以使用以下两种方法更美观地显示 DataFrame:

df.style: df.style 返回一个 Styler 对象,可以用于格式化 DataFrame 的显示。

df.style

这将以表格形式显示 DataFrame,并且可以进行自定义格式化,例如添加颜色、背景等。

display(df): display() 函数是 IPython 提供的一个函数,可以用于显示各种 Python 对象,包括 DataFrame。

from IPython.display import displaydisplay(df)

display() 函数会自动检测对象的类型,并使用最合适的显示方式。对于 DataFrame,它会以表格形式显示。

注意事项

确保已安装 scikit-learn 和 pandas 库。可以使用 pip install scikit-learn pandas 命令安装。在 Jupyter Notebook 或类似环境中,可以直接运行代码块,查看结果。df.info() 和 df.describe() 方法的输出应该直接调用,不需要放在 print() 函数中。

总结

本文介绍了如何使用 scikit-learn 库加载 Iris 数据集,并将其转换为 Pandas DataFrame。我们展示了如何查看 DataFrame 的信息,以及如何使用 describe() 方法获取数据集的描述性统计信息。此外,还介绍了两种在 Jupyter Notebook 或类似环境中更美观地显示 DataFrame 的方法。掌握这些基本操作,可以为后续的数据分析和机器学习任务打下坚实的基础。

以上就是如何将 Iris 数据集加载到 Pandas DataFrame 中的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1377377.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 17:43:28
下一篇 2025年12月14日 17:43:43

相关推荐

发表回复

登录后才能评论
关注微信