如何使用Python进行EDA？探索性数据分析

程序猿 • 2025年12月14日 04:26:47 • 好文分享 • 阅读 0

探索性数据分析（eda）是数据分析的关键第一步，因为它为后续建模提供坚实基础。1. eda帮助理解数据分布、缺失值和异常值等核心特征；2. 识别并修复数据质量问题，避免“垃圾进垃圾出”；3. 指导特征工程与模型选择，提升分析准确性；4. 建立业务直觉与假设，挖掘潜在洞察。python中常用库包括：1. pandas用于数据清洗与操作；2. numpy提供数值计算支持；3. matplotlib实现高度定制化绘图；4. seaborn专注于统计可视化；5. scikit-learn辅助预处理与特征工程。识别与处理缺失值方法有：1. 使用df.isnull().sum()检查缺失比例；2. 删除或填充缺失值，包括均值、中位数、众数、模型预测等策略。识别与处理异常值方法包括：1. 箱线图、散点图、z-score与iqr法识别异常；2. 删除、转换、封顶或保留异常值，依据业务背景决策。

探索性数据分析（EDA）在数据科学中，对我而言，绝不仅仅是跑几行代码那么简单。它更像是一场与数据的深度对话，一次侦探式的探险。使用Python进行EDA，核心在于利用其强大的库生态，如Pandas进行数据操纵，Matplotlib和Seaborn进行可视化，从而揭示数据背后的故事、发现潜在的问题、验证假设，并最终为后续的建模工作奠定坚实的基础。说白了，就是用代码和图表，把那些藏在数字里的秘密挖出来。

解决方案

进行Python EDA的流程通常是高度迭代且非线性的，但可以概括为以下几个关键步骤，它们之间没有严格的先后顺序，更像是一个不断循环优化的过程：

数据导入与初步审视： 使用Pandas库加载数据（如pd.read_csv()），然后通过.head()、.info()、.describe()、.shape和.isnull().sum()等方法快速了解数据的结构、类型、缺失值情况以及基本统计分布。这就像你拿到一份新文件，先快速翻阅一遍，看看目录和大概内容。

立即学习“Python免费学习笔记（深入）”；

数据清洗与预处理： 处理缺失值（填充、删除）、异常值（识别、处理）、重复值，并确保数据类型正确。这一步至关重要，脏数据会直接影响后续分析的准确性。有时候，你还会在这里进行一些初步的特征工程，比如日期时间列的分解。

单变量分析： 针对每个独立的特征进行分析。对于数值型变量，使用直方图（sns.histplot）、KDE图（sns.kdeplot）、箱线图（sns.boxplot）来观察其分布、偏态、集中趋势和异常值。对于类别型变量，使用计数图（sns.countplot）或饼图来查看各类别占比。

多变量分析： 探索变量之间的关系。

数值型 vs 数值型： 散点图（sns.scatterplot）是发现相关性的利器。也可以计算相关系数矩阵（df.corr()）并用热力图（sns.heatmap）可视化。类别型 vs 数值型： 使用箱线图、小提琴图（sns.violinplot）或分组柱状图来比较不同类别下数值变量的分布。类别型 vs 类别型： 交叉表（pd.crosstab）和堆叠柱状图是常用的方法。

特征工程与降维（初步探索）： 虽然特征工程通常是EDA之后的大阶段，但在EDA过程中，我们可能会基于观察到的模式，初步构想或尝试创建新的特征（比如从日期中提取年份、月份），或者对高维数据进行初步的降维尝试（如PCA），以便更好地可视化和理解数据。

结果总结与洞察： 将所有发现进行归纳总结，形成对数据的全面理解。这包括数据质量报告、关键模式的发现、潜在问题的指出以及对后续建模的建议。这部分常常被忽视，但它才是EDA的真正价值所在。

为什么探索性数据分析是数据分析的关键第一步？

对我来说，EDA就像是数据科学项目启动前的“摸底考试”和“战略规划”。它之所以是关键的第一步，在于它能让你在投入大量资源进行复杂建模之前，就对数据有一个“全景式”的认知。

你有没有过这样的经历：满怀信心地构建了一个复杂的模型，结果性能不尽如人意，回过头来才发现数据里有大量的缺失值、异常值，或者变量之间的关系根本不是你最初想象的那样？这就是缺乏EDA的典型后果。EDA能够帮助我们：

理解数据的本质： 它回答了“我的数据长什么样？”这个问题。数据的分布、变量的类型、缺失的模式、异常值的存在，这些都是数据“基因”的一部分。没有这些了解，后续的任何操作都可能是盲人摸象。识别并修复数据质量问题： 脏数据是模型的毒药。EDA能帮助我们及早发现缺失值、重复值、不一致的格式，甚至是逻辑错误的数据点。提前处理这些问题，能省去后期大量的调试时间。指导特征工程和模型选择： 通过EDA，你会发现哪些特征可能具有预测能力，哪些特征需要转换，哪些特征是冗余的。例如，如果你发现某个特征的分布严重偏斜，可能会考虑对其进行对数变换。如果你发现两个特征高度相关，可能会考虑只保留一个。这直接影响你选择什么样的模型，以及如何准备模型的输入。建立业务直觉和假设： EDA不仅仅是技术操作，它更是帮助我们从数据中提炼出业务洞察的过程。通过可视化，你可能会发现一些意想不到的模式，这些模式可能成为你提出新假设、验证业务逻辑的依据。例如，你可能会发现某个产品的销售额在特定月份有显著下降，这可能促使你进一步调查其背后的原因。

简而言之，EDA就是为了避免“垃圾进，垃圾出”的悲剧。它让你在投入资源“建造大厦”之前，先确保“地基”是牢固且清晰的。

Python中进行EDA的常用库有哪些，它们各自的侧重点是什么？

谈到Python进行EDA，我脑海里立刻浮现出几个“明星”库，它们各司其职，共同构成了EDA的强大工具箱。

Pandas：数据操作的瑞士军刀

侧重点： 数据加载、清洗、转换、聚合、切片、合并等数据框（DataFrame）层面的操作。它是你与数据交互的基石。我的感受： 离开了Pandas，Python的EDA简直寸步难行。它让数据处理变得如此直观和高效，.groupby(), .pivot_table(), .merge()这些功能简直是数据分析师的福音。

NumPy：数值计算的底层支持

侧重点： 提供高性能的多维数组对象（ndarray）和各种数学函数。虽然你可能不直接用它来画图或处理数据框，但Pandas以及许多其他科学计算库的底层都依赖于NumPy。我的感受： 就像是默默无闻的幕后英雄，你可能不直接看到它，但它的存在让整个数据生态系统能够高效运转。

Matplotlib：绘图的基础画布

侧重点： 提供了非常灵活和强大的2D绘图功能，你可以精确控制图表的每一个细节，从轴标签到颜色，从线条样式到图例位置。我的感受： Matplotlib有点像素描本，你可以从零开始画出任何你想要的图。虽然有时候会觉得语法有点啰嗦，但它的高度可定制性在需要精细调整图表时显得尤为重要。很多其他高级绘图库也是基于它构建的。

Seaborn：统计可视化的美学大师

侧重点： 基于Matplotlib，提供了一个更高层次的API，专注于统计图形的绘制。它内置了漂亮的默认样式，并且能够轻松绘制出复杂的统计图表，如热力图、联合分布图、配对图、小提琴图等。我的感受： 如果说Matplotlib是素描本，那Seaborn就是一套高级的彩色铅笔和模板。它让统计图表变得既美观又富有洞察力，极大地提升了EDA的效率和体验。对于快速探索数据关系，我几乎总是首选Seaborn。

Scikit-learn (部分模块)：预处理与特征工程的辅助

侧重点： 虽然主要用于机器学习建模，但其preprocessing模块（如StandardScaler、MinMaxScaler、LabelEncoder）和impute模块（如SimpleImputer）在EDA的数据清洗和初步特征工程阶段也非常有用。我的感受： 在我进行EDA时，有时会顺手用Scikit-learn的预处理工具来规范化数据，为后续建模做准备，这是一种自然的过渡。

这些库协同工作，让Python在EDA领域几乎无所不能。

如何在Python中有效识别并处理数据中的缺失值和异常值？

数据清洗是EDA中最考验耐心和经验的环节之一。缺失值和异常值是数据中常见的“不完美”，处理不好会严重误导分析结果。

识别与处理缺失值

识别：识别缺失值通常是第一步。Pandas提供了非常直观的方法：

import pandas as pdimport numpy as np# 假设df是你的DataFrame# df = pd.read_csv('your_data.csv')# 检查每列的缺失值数量print(df.isnull().sum())# 检查缺失值的总比例print(df.isnull().sum() / len(df) * 100)# 可视化缺失值模式（需要安装missingno库：pip install missingno）import missingno as msnomsno.matrix(df) # 矩阵图msno.bar(df)    # 条形图

df.isnull().sum()能让你一目了然地看到哪些列有多少缺失值。如果缺失值是随机分布的，missingno.matrix()会显示出白色的小空隙；如果缺失值有特定的模式（比如某一列缺失时另一列也缺失），它会以某种结构呈现。

处理策略：处理缺失值没有一劳永逸的方法，需要根据数据特性和业务背景来决定。

删除：

行删除： df.dropna()。如果某一行有缺失值，就删除整行。适用场景： 缺失值数量非常少，或者缺失的行对分析影响不大，且删除后不会损失大量数据。我的看法： 这是最简单粗暴的方法，但要非常谨慎。如果删除过多，可能会丢失宝贵的信息，甚至改变数据的分布。列删除： df.drop(columns=['column_with_many_nans'])。如果某一列缺失值过多（例如超过70-80%），或者该列对分析不重要，可以考虑删除。适用场景： 列的缺失率极高，或者该列信息价值很低。

填充（Imputation）：

均值/中位数/众数填充：数值型变量：df['column'].fillna(df['column'].mean()) 或 df['column'].fillna(df['column'].median())。类别型变量：df['column'].fillna(df['column'].mode()[0])。适用场景： 缺失值数量适中，且假设缺失是随机的（MAR – Missing At Random）。中位数对异常值更鲁棒。我的看法： 这是最常用的填充方法，但它会降低数据的方差，并可能引入偏差。前向/后向填充： df['column'].fillna(method='ffill') 或 df.fillna(method='bfill')。适用场景： 时间序列数据，或者数据行之间存在逻辑上的顺序关系。基于模型填充： 使用机器学习模型（如KNNImputer、回归模型）来预测缺失值。适用场景： 缺失值模式复杂，需要更精确的填充。我的看法： 这种方法更高级，也更耗时，但通常能提供更准确的填充结果。不过在EDA阶段，我通常会先尝试简单方法。常数填充： df['column'].fillna(0) 或 df['column'].fillna('未知')。适用场景： 缺失值本身就代表某种特定含义（如0代表没有，’未知’代表无法分类）。

识别与处理异常值

识别：异常值（Outliers）是数据集中与大多数数据点显著不同的值。识别它们通常需要结合可视化和统计方法。

可视化方法：

箱线图（Box Plot）： import seaborn as sns; sns.boxplot(x=df['numerical_column'])。箱线图能直观地显示数据的四分位数和异常值（通常定义为超出1.5倍IQR范围的点）。散点图（Scatter Plot）： sns.scatterplot(x=df['col1'], y=df['col2'])。在多变量分析中，散点图可以帮助你发现那些远离数据群体的点。直方图/KDE图： 极端的偏态分布也可能暗示异常值的存在。

统计方法：

Z-score（Z分数）： 对于服从正态分布的数据，Z-score衡量一个数据点距离均值有多少个标准差。通常，Z-score绝对值大于2或3的点被认为是异常值。

from scipy.stats import zscoredf['zscore_column'] = np.abs(zscore(df['numerical_column']))outliers = df[df['zscore_column'] > 3]

我的看法： Z-score对非正态分布的数据效果不佳，且容易受到极端异常值本身的影响。IQR（四分位距）方法： 更加鲁棒，不假设数据服从正态分布。它定义异常值为低于Q1 – 1.5 IQR或高于Q3 + 1.5 IQR的数据点（Q1是第一四分位数，Q3是第三四分位数，IQR = Q3 – Q1）。

Q1 = df['numerical_column'].quantile(0.25)Q3 = df['numerical_column'].quantile(0.75)IQR = Q3 - Q1lower_bound = Q1 - 1.5 * IQRupper_bound = Q3 + 1.5 * IQRoutliers_iqr = df[(df['numerical_column']  upper_bound)]

我的看法： IQR方法是我最常用的方法之一，因为它对偏态数据也相对有效。

处理策略：处理异常值同样需要小心翼至，因为它们可能是数据录入错误，也可能是真实但罕见的事件（比如欺诈交易、极端天气）。

删除： df = df[(df['column'] >= lower_bound) & (df['column'] 。

适用场景： 确认异常值是数据录入错误或测量误差，且数量很少，删除不会影响整体数据分布。我的看法： 除非能明确证明是错误数据，否则不轻易删除，因为可能丢失重要信息。

转换：

对数变换、平方根变换等： df['column_log'] = np.log(df['column'])。可以减少异常值对模型的影响，使数据分布更接近正态。适用场景： 数据分布高度偏斜，异常值是真实存在的但数值过大。Box-Cox变换： 更通用的变换方法，可以使数据更接近正态分布。

封顶（Capping / Winsorization）： 将异常值替换为某个阈值（如IQR方法的上下界，或第5/95百分位数）。

# 示例：将超出上限的异常值替换为上限值df['numerical_column'] = np.where(df['numerical_column'] > upper_bound, upper_bound, df['numerical_column'])# 示例：将低于下限的异常值替换为下限值df['numerical_column'] = np.where(df['numerical_column'] < lower_bound, lower_bound, df['numerical_column'])

适用场景： 希望保留异常值的信息（即它们是极端值），但又不想让它们对模型产生过大影响。我的看法： 封顶是比较温和且常用的处理方法，它保留了异常值的存在，只是限制了其极端性。

保留：

适用场景： 异常值本身就是研究的重点（如欺诈检测、故障诊断），或者它们代表了真实世界的罕见事件，具有重要意义。我的看法： 这是最需要深思熟虑的选项。如果异常值是关键信息，那么模型应该学会处理它们，而不是简单地删除或修改。

在实际操作中，识别和处理缺失值及异常值往往是一个反复试验的过程，没有绝对正确的答案。关键在于理解数据，并根据业务目标做出最合适的决策。

以上就是如何使用Python进行EDA？探索性数据分析的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1365132.html

python 为什么工具统计图表

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

如何用Python检测医疗影像中的异常区域？U-Net网络应用

上一篇 2025年12月14日 04:26:39

计算用户输入整数的平均值并处理零除错误

下一篇 2025年12月14日 04:26:54

好文分享

CSS mask属性无法获取图片：为什么我的图片不见了？

CSS mask属性无法获取图片在使用CSS mask属性时，可能会遇到无法获取指定照片的情况。这个问题通常表现为：网络面板中没有请求图片：尽管CSS代码中指定了图片地址，但网络面板中却找不到图片的请求记录。问题原因：此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

程序猿
2025年12月24日
9000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

网页使用本地字体：为什么 CSS 代码中明明指定了“荆南麦圆体”，页面却仍然显示“微软雅黑”？

网页中使用本地字体本文将解答如何将本地安装字体应用到网页中，避免使用 src 属性直接引入字体文件。问题：想要在网页上使用已安装的“荆南麦圆体”字体，但 css 代码中将其置于第一位的“font-family”属性，页面仍显示“微软雅黑”字体。立即学习“前端免费学习笔记（深入）”；答案： …

程序猿
2025年12月24日
0000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

为什么我的特定 DIV 在 Edge 浏览器中无法显示？

特定 DIV 无法显示：用户代理样式表的困扰当你在 Edge 浏览器中打开项目中的某个 div 时，却发现它无法正常显示，仔细检查样式后，发现是由用户代理样式表中的 display none 引起的。但你疑问的是，为什么会出现这样的样式表，而且只针对特定的 div？背后的原因用户代理样式表是由…

程序猿
2025年12月24日
2000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
0000
好文分享

为什么我的 CSS 元素放大效果无法正常生效？

css 设置元素放大效果的疑问解答原提问者在尝试给元素添加 10em 字体大小和过渡效果后，未能在进入页面时看到放大效果。探究发现，原提问者将 CSS 代码直接写在页面中，导致放大效果无法触发。解决办法如下：将 CSS 样式写在一个单独的文件中，并使用标签引入该样式文件。这个操作与原提问者观…

程序猿
2025年12月24日
0000
好文分享

为什么我的 em 和 transition 设置后元素没有放大？

元素设置 em 和 transition 后不放大一个 youtube 视频中展示了设置 em 和 transition 的元素在页面加载后会放大，但同样的代码在提问者电脑上没有达到预期效果。可能原因：问题在于 css 代码的位置。在视频中，css 被放置在单独的文件中并通过 link 标签引…

程序猿
2025年12月24日
1000
好文分享

为什么在父元素为inline或inline-block时，子元素设置width: 100%会出现不同的显示效果？

width:100%在父元素为inline或inline-block下的显示问题问题提出当父元素为inline或inline-block时，内部元素设置width:100%会出现不同的显示效果。以代码为例：测试内容这是inline-block span 效果1：父元素为inline-bloc…

程序猿
2025年12月24日
4000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000