解决Python从零实现线性回归中的数值溢出问题

解决python从零实现线性回归中的数值溢出问题

本文深入探讨了在Python中从零实现线性回归时可能遇到的数值溢出问题及其解决方案。当输入特征和目标值过大时,梯度下降算法中的成本函数计算和参数更新步骤容易产生超出浮点数表示范围的中间结果,导致RuntimeWarning: overflow和invalid value错误。核心解决方案在于对输入数据进行适当的缩放,以确保数值稳定性,从而使模型能够正确收敛。

1. 线性回归与梯度下降基础

线性回归是一种基本的预测模型,通过找到最佳的线性关系来拟合输入特征(features)与目标值(targets)之间的关系。其核心在于定义一个假设函数(hypothesis),一个成本函数(cost_function)来衡量模型预测的准确性,并通过梯度下降(gradientDescent)算法迭代地更新模型参数(params),以最小化成本函数。

一个典型的线性回归实现会包含以下关键组件:

假设函数 (Hypothesis):通常表示为 $h_theta(x) = theta_0 + theta_1 x_1 + dots + theta_n xn$,其中 $theta$ 是模型参数,x 是特征向量。在向量化实现中,通常会在特征矩阵 $X$ 的第一列添加一个全1的偏置项,使 $htheta(X) = Xtheta$。成本函数 (Cost Function):最常用的是均方误差(Mean Squared Error, MSE),用于衡量预测值与真实值之间的差异。其数学表达式通常为 $J(theta) = frac{1}{2m} sum{i=1}^m (htheta(x^{(i)}) – y^{(i)})^2$,其中 $m$ 是样本数量。梯度下降 (Gradient Descent):一种优化算法,通过沿着成本函数梯度的负方向迭代更新参数,以找到成本函数的局部最小值。参数更新规则为 $theta_j := theta_j – alpha frac{partial}{partial theta_j} J(theta)$,其中 $alpha$ 是学习率。

以下是一个从零实现的线性回归类的基本结构:

import numpy as npclass LinearRegression:    def __init__(    self,     features: np.ndarray[np.float64],    targets: np.ndarray[np.float64],    ) -> None:        # 在特征矩阵X前添加一列1,用于偏置项        self.features = np.concatenate((np.ones((features.shape[0], 1)), features), axis=1)        self.targets = targets        # 随机初始化参数        self.params = np.random.randn(features.shape[1] + 1)        self.num_samples = features.shape[0]        self.num_feats = features.shape[1]        self.costs = [] # 用于记录每次迭代的成本    def hypothesis(self) -> np.ndarray[np.float64]:        # 假设函数:X * theta        return np.dot(self.features, self.params)    def cost_function(self) -> np.float64:        # 均方误差成本函数 J(theta) = 1/(2m) * sum((h(x) - y)^2)        pred_vals = self.hypothesis()        return (1 / (2 * self.num_samples)) * np.dot((pred_vals - self.targets).T, pred_vals - self.targets)    def update(self, alpha: np.float64) -> None:        # 参数更新:theta = theta - alpha/m * (X.T @ (h(x) - y))        self.params = self.params - (alpha / self.num_samples) * (self.features.T @ (self.hypothesis() - self.targets))    def gradientDescent(self, alpha: np.float64, threshold: np.float64, max_iter: int) -> None:        converged = False        counter = 0        while not converged:            counter += 1            curr_cost = self.cost_function()            self.costs.append(curr_cost)            self.update(alpha) # 更新参数            new_cost = self.cost_function()            # 判断收敛条件:成本函数变化小于阈值或达到最大迭代次数            if abs(new_cost - curr_cost)  max_iter:                converged = True

2. 识别数值溢出问题

在上述线性回归实现中,当输入数据(features和targets)的数值范围过大时,梯度下降过程极易出现数值溢出(overflow)和无效值(invalid value)警告。

立即学习“Python免费学习笔记(深入)”;

例如,如果使用以下方式初始化和运行模型:

# 使用大范围的输入数据regr = LinearRegression(features=np.linspace(0, 1000, 200, dtype=np.float64).reshape((20, 10)),                         targets=np.linspace(0, 200, 20, dtype=np.float64))regr.gradientDescent(0.1, 1e-3, 1e+3)regr.cost_function()

可能会遇到以下运行时警告:

RuntimeWarning: overflow encountered in scalar powerRuntimeWarning: invalid value encountered in scalar subtractRuntimeWarning: overflow encountered in matmul

这些警告表明在计算过程中产生了超出float64数据类型表示范围的巨大数值(如inf或-inf),或者由这些无限值导致的无效计算结果(如inf – inf产生NaN)。

原因分析:

成本函数中的平方项:在cost_function中,计算 (pred_vals – self.targets) 的平方和。如果 pred_vals 和 self.targets 本身就很大,它们的差值也可能很大,其平方值会迅速增长,远超float64的表示上限(约 $10^{308}$),导致溢出。梯度更新中的矩阵乘法:在update方法中,self.features.T @ (self.hypothesis() – self.targets) 涉及特征矩阵与误差项的乘积。如果特征值本身很大,或者误差项很大(由于预测值与目标值差距大),矩阵乘法的结果也会非常大,同样容易导致溢出。累积效应:一旦发生溢出,参数 self.params 可能会被更新为 inf 或 NaN。随后的迭代中,任何涉及这些参数的计算都会继续传播 inf 或 NaN,导致模型无法收敛。

3. 解决方案:数据缩放

解决数值溢出问题的最有效方法是对输入数据进行缩放(Scaling)。通过将特征和目标值转换到一个较小的、标准化的范围,可以显著提高数值稳定性,并帮助梯度下降算法更有效地收敛。

常见的缩放方法包括:

Min-Max 归一化 (Normalization):将数据线性缩放到一个固定范围,通常是 [0, 1] 或 [-1, 1]。$X{norm} = frac{X – X{min}}{X{max} – X{min}}$标准化 (Standardization / Z-score Normalization):将数据转换成均值为0,标准差为1的分布。$X_{std} = frac{X – mu}{sigma}$其中 $mu$ 是均值,$sigma$ 是标准差。

对于本例中的问题,简单地将输入数据除以一个较大的常数,使其数值范围缩小,即可有效避免溢出。

修正后的代码示例:

# 将特征和目标值缩小1000倍regr = LinearRegression(features=np.linspace(0, 1000, 200, dtype=np.float64).reshape((20, 10))/1000,                         targets=np.linspace(0, 200, 20, dtype=np.float64)/1000)regr.gradientDescent(0.1, 1e-3, 1e+3)final_cost = regr.cost_function()print(f"最终成本函数值: {final_cost}")# 示例输出:最终成本函数值: 0.00474225348416323

通过将 features 和 targets 都除以1000,它们的数值范围显著缩小,从而避免了在成本函数和梯度更新计算中出现中间结果溢出。模型现在能够正常运行,并收敛到一个合理的成本函数值。

4. 注意事项与最佳实践

数据预处理的重要性:数据缩放是机器学习流程中至关重要的一步,尤其是在使用基于梯度下降的优化算法时。它不仅能解决数值稳定性问题,还能加速模型收敛,并防止某些特征因数值范围过大而主导模型训练。选择合适的缩放方法:Min-Max 归一化适用于已知数据边界的情况,而标准化则更适用于数据分布未知或存在异常值的情况。对于线性回归,标准化通常是更稳健的选择。学习率(alpha)的选择:即使数据经过缩放,过大的学习率也可能导致梯度爆炸和模型发散。因此,选择一个合适的学习率至关重要。通常需要通过实验或交叉验证来确定最佳学习率。收敛条件:在 gradientDescent 方法中,使用成本函数的变化量作为收敛条件 (abs(new_cost – curr_cost) 调试数值问题:在实现机器学习算法时,如果遇到 NaN 或 inf 值,首先应检查输入数据的数值范围,然后逐步检查中间计算结果,以定位溢出或无效操作发生的位置。使用成熟库:对于生产环境或更复杂的任务,推荐使用像 Scikit-learn 这样的成熟机器学习库,它们内置了数据预处理工具和经过优化的算法实现,能够自动处理许多数值稳定性问题。

总结

在Python中从零实现线性回归等机器学习算法时,数值稳定性是一个不容忽视的关键问题。当输入数据数值范围过大时,计算过程中可能发生浮点数溢出,导致模型训练失败。通过对数据进行适当的缩放(如归一化或标准化),可以将数值保持在可管理的范围内,从而有效解决溢出问题,确保梯度下降算法的稳定运行和模型的正确收敛。理解并应用数据预处理技术是构建健壮机器学习模型的基石。

以上就是解决Python从零实现线性回归中的数值溢出问题的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1368272.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 08:38:28
下一篇 2025年12月14日 08:38:36

相关推荐

  • 如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画?

    如何实现元素scrollleft变化时的平滑动画效果? 在许多网页应用中,滚动容器的水平滚动条(scrollleft)需要频繁使用。为了让滚动动作更加自然,你希望给scrollleft的变化添加动画效果。 解决方案:scroll-behavior 属性 要实现scrollleft变化时的平滑动画效果…

    2025年12月24日
    000
  • 如何为滚动元素添加平滑过渡,使滚动条滑动时更自然流畅?

    给滚动元素平滑过渡 如何在滚动条属性(scrollleft)发生改变时为元素添加平滑的过渡效果? 解决方案:scroll-behavior 属性 为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码: click the button to slide right!…

    2025年12月24日
    500
  • 为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位?

    overflow 导致 inline-block 元素错位解析 当多个 inline-block 元素并列排列时,可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。 问题现象 在不设置 overflow 属性时,元素按预期显示在同一水平线上: 不设置 overf…

    2025年12月24日 好文分享
    400
  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • 旋转长方形后,如何计算其相对于画布左上角的轴距?

    绘制长方形并旋转,计算旋转后轴距 在拥有 1920×1080 画布中,放置一个宽高为 200×20 的长方形,其坐标位于 (100, 100)。当以任意角度旋转长方形时,如何计算它相对于画布左上角的 x、y 轴距? 以下代码提供了一个计算旋转后长方形轴距的解决方案: const x = 200;co…

    2025年12月24日
    000
  • 旋转长方形后,如何计算它与画布左上角的xy轴距?

    旋转后长方形在画布上的xy轴距计算 在画布中添加一个长方形,并将其旋转任意角度,如何计算旋转后的长方形与画布左上角之间的xy轴距? 问题分解: 要计算旋转后长方形的xy轴距,需要考虑旋转对长方形宽高和位置的影响。首先,旋转会改变长方形的长和宽,其次,旋转会改变长方形的中心点位置。 求解方法: 计算旋…

    2025年12月24日
    000
  • 微信小程序文本省略后如何避免背景色溢出?

    去掉单行文本溢出多余背景色 在编写微信小程序时,如果希望文本超出宽度后省略显示并在末尾显示省略号,但同时还需要文本带有背景色,可能会遇到如下问题:文本末尾出现多余的背景色块。这是因为文本本身超出部分被省略并用省略号代替,但其背景色依然存在。 要解决这个问题,可以采用以下方法: 给 text 元素添加…

    2025年12月24日
    000
  • 旋转长方形后如何计算其在画布上的轴距?

    旋转长方形后计算轴距 假设长方形的宽、高分别为 200 和 20,初始坐标为 (100, 100),我们将它旋转一个任意角度。根据旋转矩阵公式,旋转后的新坐标 (x’, y’) 可以通过以下公式计算: x’ = x * cos(θ) – y * sin(θ)y’ = x * …

    2025年12月24日
    000
  • 如何让“元素跟随文本高度,而不是撑高父容器?

    如何让 元素跟随文本高度,而不是撑高父容器 在页面布局中,经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中,父容器被较高的图片撑开,而文本的高度没有被考虑。本问答将提供纯css解决方案,让图片跟随文本高度,确保父容器的高度不会被图片影响。 解决方法 为了解决这个问题,需要将图片从文档流中脱离…

    2025年12月24日
    000
  • 如何计算旋转后长方形在画布上的轴距?

    旋转后长方形与画布轴距计算 在给定的画布中,有一个长方形,在随机旋转一定角度后,如何计算其在画布上的轴距,即距离左上角的距离? 以下提供一种计算长方形相对于画布左上角的新轴距的方法: const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

    2025年12月24日
    200
  • CSS元素设置em和transition后,为何载入页面无放大效果?

    css元素设置em和transition后,为何载入无放大效果 很多开发者在设置了em和transition后,却发现元素载入页面时无放大效果。本文将解答这一问题。 原问题:在视频演示中,将元素设置如下,载入页面会有放大效果。然而,在个人尝试中,并未出现该效果。这是由于macos和windows系统…

    2025年12月24日
    200
  • Flex 布局左右同高怎么实现?

    flex布局左右同高 在flex布局中,左右布局的元素高度不一致时,想要让边框延伸到最大高度,可以采用以下方法: 基于当前结构的方法: 给.rht和.lft盒子添加: .rht { height: min-content;} 这样可以使弹性盒子被子盒子内容撑开。 使用javascript获取.rht…

    2025年12月24日
    000
  • inline-block元素错位了,是为什么?

    inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素,它可以与其他元素行内排列。但是,在某些情况下,inline-block元素可能会出现错位显示的问题。 错位的原因 当inline-block元素设置了overflow:hidden属性时,它会影响元素的…

    2025年12月24日
    000
  • 为什么使用 inline-block 元素时会错位?

    inline-block 元素错位成因剖析 在使用 inline-block 元素时,可能会遇到它们错位显示的问题。如代码 demo 所示,当设置了 overflow 属性时,a 标签就会错位下沉,而未设置时却不会。 问题根源: overflow:hidden 属性影响了 inline-block …

    2025年12月24日
    000
  • 如何去除带有背景色的文本单行溢出时的多余背景色?

    带背景色的文字单行溢出处理:去除多余的背景色 当一个带有背景色的文本因单行溢出而被省略时,可能会出现最后一个背景色块多余的情况。针对这种情况,可以通过以下方式进行处理: 在示例代码中,问题在于当文本溢出时,overflow: hidden 属性会导致所有文本元素(包括最后一个)都隐藏。为了解决该问题…

    2025年12月24日
    300
  • 如何解决 CSS 中文本溢出时背景色也溢出的问题?

    文字单行溢出省略号时,去掉多余背景色的方法 在使用 css 中的 text-overflow: ellipsis 属性时,如果文本内容过长导致一行溢出,且文本带有背景色,溢出的部分也会保留背景色。但如果想要去掉最后多余的背景色,可以采用以下方法: 给 text 元素添加一个 display: inl…

    2025年12月24日
    200
  • 如何计算旋转后的长方形在画布上的 XY 轴距?

    旋转长方形后计算其画布xy轴距 在创建的画布上添加了一个长方形,并提供其宽、高和初始坐标。为了视觉化旋转效果,还提供了一些旋转特定角度后的图片。 问题是如何计算任意角度旋转后,这个长方形的xy轴距。这涉及到使用三角学来计算旋转后的坐标。 以下是一个 javascript 代码示例,用于计算旋转后长方…

    2025年12月24日
    000
  • 如何用CSS实现文本自动展开,并在超出两行后显示展开下箭头?

    CSS实现文本自动展开的难题 一段文本超出两行后自动溢出的效果,需要添加一个展开下箭头指示用户有隐藏内容。实现这一需求时,面临以下难题: 判断是否超过两行溢出取消省略号,用展开下箭头代替 解决思路:参考大佬文章 这个问题的解决方法,可以参考本站大佬的文章CSS 实现多行文本“展开收起”,该文章正是针…

    2025年12月24日
    000
  • 如何去除单行溢出文本中的冗余背景色?

    带背景色的文字单行溢出省略号,如何去除冗余背景色? 在使用 css 样式时,为单行溢出文本添加背景色可能会导致最后一行文本中的冗余背景色。为了解决这个问题,可以为文本元素添加额外的 css 样式: text { display: inline-block;} 添加这个样式后,文字截断将基于文本块进行…

    2025年12月24日
    000
  • 如何用 CSS 实现纵向文字溢出省略号?

    纵向文字溢出的省略号处理方案 对于纵向展示的文字,传统的横向溢出省略方案(使用 overflow: hidden; text-overflow: ellipsis;)不适用。若需在纵向展示时实现省略号,可考虑以下 css 解决方案: 垂直排版 通过将文字排版模式改为垂直,可以解决纵向溢出的问题。使用…

    2025年12月24日
    000

发表回复

登录后才能评论
关注微信