梯度下降法实现线性回归的数值稳定性：溢出与NaN问题解析与数据缩放策略

程序猿 • 2025年12月14日 08:38:14 • 用户投稿 • 阅读 0

本教程深入探讨了在使用梯度下降法从零实现线性回归时，因输入数据过大导致的数值溢出（overflow）和无效值（NaN）问题。我们将分析这些错误产生的原因，并强调数据缩放（Data Scaling）作为解决此类数值不稳定性的关键策略，通过具体代码示例展示如何有效处理大数值输入，确保模型训练的稳定性和准确性。

线性回归与梯度下降中的数值稳定性挑战

线性回归是一种基础且广泛使用的预测模型，通过找到最佳的线性关系来拟合数据。当从零开始实现线性回归时，梯度下降法是求解模型参数（权重）的常用优化算法。然而，在实际操作中，如果不注意数据特性，梯度下降过程可能会遇到数值稳定性问题，例如runtimewarning: overflow encountered和runtimewarning: invalid value encountered等错误，这通常导致模型参数变为无穷大（inf）或非数字（nan），从而使训练失败。

问题诊断：为何出现溢出与NaN？

当输入特征（features）和目标值（targets）的数值范围过大时，梯度下降算法在迭代过程中极易出现数值溢出。这主要体现在以下几个方面：

假设函数（Hypothesis）的计算：hypothesis = np.dot(self.features, self.params)在每一次迭代中，模型参数self.params会根据梯度进行更新。如果self.features的数值很大，即使self.params初始值不大，其乘积np.dot(self.features, self.params)也可能迅速变得非常大。

成本函数（Cost Function）的计算：cost_function = (1 / (2 * self.num_samples)) * np.dot((pred_vals – self.targets).T, pred_vals – self.targets)成本函数通常采用均方误差（Mean Squared Error, MSE），其中包含误差项的平方。当pred_vals或self.targets数值过大时，它们的差值平方会急剧增大，导致成本函数的值迅速增长，甚至超出浮点数的表示范围，引发overflow。

参数更新（Parameter Update）过程：self.params = self.params – (alpha / self.num_samples) * (self.features.T @ (self.hypothesis() – self.targets))梯度更新项self.features.T @ (self.hypothesis() – self.targets)涉及特征矩阵的转置与误差项的矩阵乘法。如果self.features和误差项（self.hypothesis() – self.targets）的数值都很大，这个乘积会变得非常巨大，导致self.params在一次更新后就直接跳变到inf。一旦参数变为inf，后续的计算（如inf – inf）将产生NaN，从而使整个训练过程崩溃。

上述问题在提供的代码示例中表现尤为明显：

class LinearRegression:    def __init__(    self,     features: np.ndarray[np.float64],    targets: np.ndarray[np.float64],    ) -> None:        self.features = np.concatenate((np.ones((features.shape[0], 1)), features), axis=1)        self.targets = targets        self.params = np.random.randn(features.shape[1] + 1)        self.num_samples = features.shape[0]        self.num_feats = features.shape[1]        self.costs = []    def hypothesis(self) -> np.ndarray[np.float64]:        return np.dot(self.features, self.params)    def cost_function(self) -> np.float64:        pred_vals = self.hypothesis()        # 注意：原始问题描述中可能存在对成本函数公式的误解或不同版本，        # 但核心问题在于大数值运算导致的溢出。        return (1 / (2 * self.num_samples)) * np.dot((pred_vals - self.targets).T, pred_vals - self.targets)    def update(self, alpha: np.float64) -> None:        self.params = self.params - (alpha / self.num_samples) * (self.features.T @ (self.hypothesis() - self.targets))    def gradientDescent(self, alpha: np.float64, threshold: np.float64, max_iter: int) -> None:        converged = False        counter = 0        while not converged:            counter += 1            curr_cost = self.cost_function()            self.costs.append(curr_cost)            self.update(alpha)            new_cost = self.cost_function()            if abs(new_cost - curr_cost)  max_iter:                converged = True

当使用如features=np.linspace(0, 1000, 200).reshape((20, 10))和targets=np.linspace(0, 200, 20)这样包含大数值的输入时，很快就会遇到RuntimeWarning: overflow encountered in matmul和RuntimeWarning: invalid value encountered in scalar subtract等错误。

数据缩放：解决方案的核心

解决梯度下降数值稳定性问题的关键策略是数据缩放（Data Scaling）。数据缩放通过改变特征和目标值的数值范围，使其落在更小的、更易于处理的区间内，从而避免计算过程中的溢出。常用的数据缩放方法包括：

标准化（Standardization / Z-score Normalization）：将数据转换成均值为0，标准差为1的分布。公式为 (x – mean) / std_dev。归一化（Normalization / Min-Max Scaling）：将数据缩放到一个固定的范围，通常是[0, 1]或[-1, 1]。公式为 (x – min) / (max – min)。

对于本例中的问题，简单地将输入数据除以一个适当的常数（例如1000）就可以有效地将数据范围缩小，从而解决溢出问题。这种方法虽然不是标准的标准化或归一化，但在数据范围已知且所有值都为正的情况下，能够快速有效地解决数值过大的问题。

修正后的代码示例

为了解决上述数值溢出问题，我们只需要在实例化LinearRegression类时，对输入features和targets进行适当的缩放。以下是修正后的使用示例：

import numpy as np# 假设 LinearRegression 类已定义如上# 修正后的数据输入：将原始大数值数据按比例缩小# 例如，将范围从 [0, 1000] 缩小到 [0, 1] 或更小的范围scaled_features = np.linspace(0, 1000, 200, dtype=np.float64).reshape((20, 10)) / 1000scaled_targets = np.linspace(0, 200, 20, dtype=np.float64) / 1000# 使用缩放后的数据实例化并运行梯度下降regr = LinearRegression(features=scaled_features, targets=scaled_targets)regr.gradientDescent(0.1, 1e-3, 1e+3)# 打印最终的成本函数值final_cost = regr.cost_function()print(f"训练后的最终成本: {final_cost}")# 示例输出可能为：训练后的最终成本: 0.00474225348416323

通过将features和targets都除以1000，我们成功地将它们的数值范围缩小，从而避免了在梯度下降过程中出现overflow和NaN的错误。模型现在能够稳定地收敛，并给出一个有效的成本函数值。

实践建议与注意事项

数据预处理的重要性：数据缩放是机器学习工作流程中至关重要的预处理步骤。它不仅能解决数值稳定性问题，还能加速梯度下降的收敛速度，并提高模型的性能。选择合适的缩放方法：根据数据的分布特性和模型的要求，选择合适的缩放方法。对于大多数情况，标准化（sklearn.preprocessing.StandardScaler）或归一化（sklearn.preprocessing.MinMaxScaler）是首选。学习率（alpha）的选择：即使数据经过缩放，学习率alpha的选择依然关键。过大的学习率可能导致振荡或发散，过小的学习率则会使收敛速度过慢。通常需要通过实验来找到最佳的学习率。监控成本函数：在训练过程中，持续监控成本函数的值是诊断问题和评估模型收敛情况的有效方法。成本函数应随着迭代次数的增加而逐渐减小并趋于稳定。调试数值问题：当遇到inf或NaN等数值错误时，应检查涉及的变量（如模型参数、梯度、成本函数）在计算过程中的中间值，以定位问题发生的确切位置。数值精度：在Python中使用NumPy时，默认的数据类型通常是float64，这提供了足够的精度。但在极端情况下，如果数据范围仍然非常大，可能需要考虑更高精度的浮点数类型（如果语言或库支持）。

通过理解梯度下降的数值特性并恰当地进行数据预处理，我们可以有效地避免常见的数值稳定性问题，确保线性回归模型的成功训练和应用。

以上就是梯度下降法实现线性回归的数值稳定性：溢出与NaN问题解析与数据缩放策略的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1368266.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

如何将SHAP Summary Plot保存为图像文件

上一篇 2025年12月14日 08:38:07

线性回归实现中的数值溢出问题及解决方案

下一篇 2025年12月14日 08:38:24

用户投稿

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
用户投稿

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 用户投稿
5000
用户投稿

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
用户投稿

旋转长方形后，如何计算其相对于画布左上角的轴距？

绘制长方形并旋转，计算旋转后轴距在拥有 1920×1080 画布中，放置一个宽高为 200×20 的长方形，其坐标位于 (100, 100)。当以任意角度旋转长方形时，如何计算它相对于画布左上角的 x、y 轴距？以下代码提供了一个计算旋转后长方形轴距的解决方案： const x = 200;co…

程序猿
2025年12月24日
0000
用户投稿

旋转长方形后，如何计算它与画布左上角的xy轴距？

旋转后长方形在画布上的xy轴距计算在画布中添加一个长方形，并将其旋转任意角度，如何计算旋转后的长方形与画布左上角之间的xy轴距？问题分解：要计算旋转后长方形的xy轴距，需要考虑旋转对长方形宽高和位置的影响。首先，旋转会改变长方形的长和宽，其次，旋转会改变长方形的中心点位置。求解方法：计算旋…

程序猿
2025年12月24日
0000
用户投稿

微信小程序文本省略后如何避免背景色溢出？

去掉单行文本溢出多余背景色在编写微信小程序时，如果希望文本超出宽度后省略显示并在末尾显示省略号，但同时还需要文本带有背景色，可能会遇到如下问题：文本末尾出现多余的背景色块。这是因为文本本身超出部分被省略并用省略号代替，但其背景色依然存在。要解决这个问题，可以采用以下方法：给 text 元素添加…

程序猿
2025年12月24日
1000
用户投稿

旋转长方形后如何计算其在画布上的轴距？

旋转长方形后计算轴距假设长方形的宽、高分别为 200 和 20，初始坐标为 (100, 100)，我们将它旋转一个任意角度。根据旋转矩阵公式，旋转后的新坐标 (x’, y’) 可以通过以下公式计算： x’ = x * cos(θ) – y * sin(θ)y’ = x * …

程序猿
2025年12月24日
0000
用户投稿

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
用户投稿

如何计算旋转后长方形在画布上的轴距？

旋转后长方形与画布轴距计算在给定的画布中，有一个长方形，在随机旋转一定角度后，如何计算其在画布上的轴距，即距离左上角的距离？以下提供一种计算长方形相对于画布左上角的新轴距的方法： const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

程序猿
2025年12月24日
2000
用户投稿

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
3000
用户投稿

Flex 布局左右同高怎么实现？

flex布局左右同高在flex布局中，左右布局的元素高度不一致时，想要让边框延伸到最大高度，可以采用以下方法：基于当前结构的方法：给.rht和.lft盒子添加： .rht { height: min-content;} 这样可以使弹性盒子被子盒子内容撑开。使用javascript获取.rht…

程序猿
2025年12月24日
0000
用户投稿

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
1000
用户投稿

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
1000
用户投稿

如何去除带有背景色的文本单行溢出时的多余背景色？

带背景色的文字单行溢出处理：去除多余的背景色当一个带有背景色的文本因单行溢出而被省略时，可能会出现最后一个背景色块多余的情况。针对这种情况，可以通过以下方式进行处理：在示例代码中，问题在于当文本溢出时，overflow: hidden 属性会导致所有文本元素(包括最后一个)都隐藏。为了解决该问题…

程序猿
2025年12月24日
0000
用户投稿

如何解决 CSS 中文本溢出时背景色也溢出的问题？

文字单行溢出省略号时，去掉多余背景色的方法在使用 css 中的 text-overflow: ellipsis 属性时，如果文本内容过长导致一行溢出，且文本带有背景色，溢出的部分也会保留背景色。但如果想要去掉最后多余的背景色，可以采用以下方法：给 text 元素添加一个 display: inl…

程序猿
2025年12月24日
2000
用户投稿

如何计算旋转后的长方形在画布上的 XY 轴距？

旋转长方形后计算其画布xy轴距在创建的画布上添加了一个长方形，并提供其宽、高和初始坐标。为了视觉化旋转效果，还提供了一些旋转特定角度后的图片。问题是如何计算任意角度旋转后，这个长方形的xy轴距。这涉及到使用三角学来计算旋转后的坐标。以下是一个 javascript 代码示例，用于计算旋转后长方…

程序猿
2025年12月24日
0000
用户投稿

如何用CSS实现文本自动展开，并在超出两行后显示展开下箭头？

CSS实现文本自动展开的难题一段文本超出两行后自动溢出的效果，需要添加一个展开下箭头指示用户有隐藏内容。实现这一需求时，面临以下难题：判断是否超过两行溢出取消省略号，用展开下箭头代替解决思路：参考大佬文章这个问题的解决方法，可以参考本站大佬的文章CSS 实现多行文本“展开收起”，该文章正是针…

程序猿
2025年12月24日
0000
用户投稿

如何去除单行溢出文本中的冗余背景色？

带背景色的文字单行溢出省略号，如何去除冗余背景色？在使用 css 样式时，为单行溢出文本添加背景色可能会导致最后一行文本中的冗余背景色。为了解决这个问题，可以为文本元素添加额外的 css 样式： text { display: inline-block;} 添加这个样式后，文字截断将基于文本块进行…

程序猿
2025年12月24日
0000
用户投稿

如何用 CSS 实现纵向文字溢出省略号？

纵向文字溢出的省略号处理方案对于纵向展示的文字，传统的横向溢出省略方案（使用 overflow: hidden; text-overflow: ellipsis;）不适用。若需在纵向展示时实现省略号，可考虑以下 css 解决方案：垂直排版通过将文字排版模式改为垂直，可以解决纵向溢出的问题。使用…

程序猿
2025年12月24日
0000