利润预测不再困难,scikit-learn线性回归法让你事半功倍

1、简介

生成式人工智能无疑是一个改变游戏规则的技术,但对于大多数商业问题来说,回归和分类等传统的机器学习模型仍然是首选。

重写后的内容:设想一下私募股权或风险投资等投资者如何利用机器学习。要回答这个问题,首先需要了解投资者关注的数据以及数据的使用方式。投资公司的决策不仅仅基于可量化的数据,例如支出、增长和烧钱率等,还包括创始人的记录、客户反馈和产品体验等定性数据

本文将介绍线性回归的基础知识,可以在这里找到完整的代码。

需要重写的内容是:【代码】:https://github.com/RoyiHD/linear-regression

2、项目设置

本文将使用Jupyter Notebook进行这个项目。首先导入一些库。

导入库

# 绘制图表import matplotlib.pyplot as plt# 数据管理和处理from pandas import DataFrame# 绘制热力图import seaborn as sns# 分析from sklearn.metrics import r2_score# 用于训练和测试的数据管理from sklearn.model_selection import train_test_split# 导入线性模型from sklearn.linear_model import LinearRegression# 代码注释from typing import List

3、数据

为了简化问题,本文将使用区域数据。这些数据代表了公司的支出类别和利润。可以看到一些不同数据点的示例。本文希望使用支出数据来训练一个线性回归模型并预测利润。

重要的是要理解本文所描述的数据是关于一家公司的支出情况。只有当将支出数据与收入增长、当地税收、摊销和市场状况等数据结合起来时,才能得出有意义的预测能力

R&D Spend

行政管理

Marketing

投资收益

需要进行重写的内容是:165349.2

136897.8

需要重写的内容是:471784.1

需要改写的内容是:192261.83

162597.7

需要被重写的内容是:151377.59

443898.53

191792.06

153441.51

101145.55

需要重新写作的内容是:407934.54

需要重写的是:191050.39

Lessie AI Lessie AI

一款定位为「People Search AI Agent」的AI搜索智能体

Lessie AI 297 查看详情 Lessie AI

加载数据

companies: DataFrame = pd.read_csv("companies.csv", header = 0)

4、数据可视化

了解数据对于确定要使用的特征、需要进行归一化和转换的特征、从数据中删除异常值以及对特定数据点进行的处理是很重要的。

目标(利润)直方图

可以直接使用DataFrame绘制直方图(Pandas使用Matplotlib来绘制数据帧),可以直接访问利润并绘制它。

companies['Profit'].hist( color='g', bins=100);

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

利润预测不再困难,scikit-learn线性回归法让你事半功倍图片

从数据中可以清楚地看出,利润超过20万美元的异常值非常罕见。这表明本文所涉及的数据代表的是规模较大的公司。鉴于异常值数量较少,可以将其保留

特征(支出)直方图

在这里,本文旨在使用特征的直方图,并观察其分布情况。Y轴表示数字频率,X轴表示支出

companies[["R&D Spend", "行政管理", "Marketing Spend"]].hist(figsize=(16, 20), bins=50, xlabelsize=8, ylabelsize=8)

利润预测不再困难,scikit-learn线性回归法让你事半功倍图片

可以观察到一个健康的分布,只有很少的异常值。根据直觉,可以预期投入更多资金在研发和市场营销上的公司会获得更高的利润。从下面的散点图中可以看出,研发支出和利润之间存在明显的相关性

profits: DataFrame = companies[["Profit"]]research_and_development_spending: DataFrame = companies[["R&D Spend"]]figure, ax = plt.subplots(figsize = (9, 9))plt.xlabel("R&D Spending")plt.ylabel("Profits")ax.scatter(research_and_development_spending, profits, s=60, alpha=0.7, edgecolors="k",color='g',linewidths=0.5)

利润预测不再困难,scikit-learn线性回归法让你事半功倍图片

可以使用相关的热图来进一步探索支出和利润之间的关系。从图中可以观察到研发和市场营销支出与利润之间的相关性比行政支出更高

sns.heatmap(companies.corr())

利润预测不再困难,scikit-learn线性回归法让你事半功倍图片

5、模型训练

首先需要将数据集分割为训练集和测试集两部分。Sklearn提供了一个辅助方法来完成这个任务。鉴于本文的数据集很简单且足够小,可以按照以下方式将特征和目标分离开来。

数据集

features: DataFrame = companies[["R&D Spend", "行政管理", "Marketing Spend",]]targets: DataFrame = companies[["Profit"]]train_features, test_features, train_targets, test_targets = train_test_split(features, targets,test_size=0.2)

大多数数据科学家会使用不同的命名约定,如X_train、y_train或其他类似的变体。

模型训练

现在可以创建并训练模型了。Sklearn使事情变得非常简单。

model: LinearRegression = LinearRegression()model.fit(train_features, train_targets)

6、模型评估

本文希望对模型的性能及其可用性进行评估。首先查看一下计算得到的系数。在机器学习中,系数是用来与每个特征相乘的学习到的权重或数值。期望看到每个特征都有一个学习系数。

coefficients = model.coef_"""We should see the following in our consoleCoefficients[[0.55664299 1.08398919 0.07529883]]"""

正如上述所看到的,有3个系数,每个特征对应一个系数(“研发支出”、“行政支出”、“市场营销支出”)。还可以将其绘制成图表,以便更直观地了解每个系数。

plt.figure()plt.barh(train_features.columns, coefficients[0])plt.show()

利润预测不再困难,scikit-learn线性回归法让你事半功倍图片

计算误差

希望了解模型的误差率,我们将使用Sklearn的R2得分

test_predictions: List[float] = model.predict(test_features)root_squared_error: float = r2_score(test_targets, test_predictions)"""floatWe should see an ouput similar to this0.9781424529214315"""

离1越近,模型就越准确。实际上可以用一种非常简单的方式对这一点进行测试。

使用下面的支出模型来预测利润,并希望得到一个接近192261美元的数字,可以提取数据集的第一行

"R&D Spend" |"行政管理" |"Marketing Spend" | "Profit"需要进行重写的内容是:165349.2 136897.8需要重写的内容是:471784.1需要改写的内容是:192261.83

接下来创建一个推理请求。

inference_request: DataFrame = pd.DataFrame([{"R&D Spend":需要进行重写的内容是:165349.2, "行政管理":136897.8, "Marketing Spend":需要重写的内容是:471784.1 }])

运行模型。

inference: float = model.predict(inference_request)"""We should get a number that is around199739.88721901"""

现在可以看到的误差率是abs(199739-192261)/192261=0.0388。这是非常准确的。

7、结论

处理数据搭建模型和分析数据有很多方法。没有一种解决方案适用于所有情况,当用机器学习解决业务问题时,其中一个关键过程是搭建多个旨在解决同一个问题的模型,并选择最有前途的模型

以上就是利润预测不再困难,scikit-learn线性回归法让你事半功倍的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/809191.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 21:50:28
下一篇 2025年11月26日 21:50:50

相关推荐

  • CSS 辅助样式属性解析:cursor 和 pointer-events

    CSS 辅助样式属性解析:cursor 和 pointer-events 在网站开发中,经常会遇到一些特殊的需求,需要通过一些辅助样式属性来实现。cursor 和 pointer-events 是两个常用的样式属性,它们可以在用户与页面交互时提供更好的反馈和控制。本文将详细解析这两个属性,并提供具体…

    2025年12月24日
    000
  • 怎么在css中改变光标样式

    在css中cursor属性是用来定义了鼠标指针放在一个元素边界范围内时所用的光标形状;我们可以通cursor属性来设置鼠标光标(指针)样式。 cursor属性的语法: cursor: auto|crosshair|default|hand|move|help|wait|text|w-resize|s…

    好文分享 2025年12月24日
    000
  • cursor属性如何改变光标的形状?(图文详解)

    本篇文章给大家带来的内容是介绍cursor属性改变光标形状的方法,让大家了解cursor属性可以设置的大部分常用的光标形状。有一定的参考价值,有需要的朋友可以参考一下,希望对你们有所帮助。 首先我们来看看cursor属性是如何改变光标形状的。 css3 cursor属性的基本语法: cursor: …

    2025年12月24日 好文分享
    000
  • cursor怎么用?CSS中cursor属性的使用方法以及可选值的解析

    在页面布局时,css是工作中必不可少的部分,常听别人讲:html是一个人素颜的样子,加了css后是一个人化妆以后的样子。这句话通俗易懂,很好的诠释了css与html之间的关系。css中的属性非常多,今天就着重讲一个属性,即css cursor属性,以及它的很多可选值,比如:cursor 手型 就是用…

    好文分享 2025年12月24日
    000
  • css鼠标样式cursor的讲解

    这篇文章主要介绍了关于css鼠标样式cursor的讲解,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 巧合要用到鼠标样式效果,就顺便整理了下十五种CSS 鼠标样式,小例子供大家使用啊 CSS鼠标样式语法如下: 任意标签中插入 style=”cursor:*” …

    好文分享 2025年12月24日
    000
  • Microsoft Teams如何设置访客权限 Microsoft Teams外部协作的安全管理

    首先登录Microsoft 365管理中心启用Teams访客访问功能,接着在Azure AD中配置目录范围与信息可见性限制,最后通过敏感度标签、审核日志、DLP策略及文件共享设置实施沟通与内容安全管控,实现外部协作的安全管理。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 D…

    2025年12月6日 科技
    000
  • DevDocs— 开源的技术文档爬取和处理工具

    devdocs:程序员和ai开发者的效率利器 DevDocs是一款开源的技术文档爬取与处理工具,专为程序员和AI开发者打造。它利用智能爬虫技术,高效地收集和整理技术文档,将原本需要数周才能完成的任务缩短至数小时。DevDocs支持多线程爬取,速度快,并能自动识别和处理网站链接,支持1-5层深度爬取。…

    2025年12月5日
    200
  • DeepSeek支持的GPU型号有哪些?

    DeepSeek 支持多种 GPU 型号和配置,包括 NVIDIA、AMD 和国产显卡。1. NVIDIA GPU:主流架构包括 Ampere(A100、A30)、Hopper(H100、H200)、Ada Lovelace(RTX 4090)和 Blackwell(B200);其他高性能型号包括 …

    2025年12月5日
    000
  • 分析师:盈利速度“前所未见”,AI应用企业正在跃升为巨头

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AI初创企业的迅猛发展 4月14日,金融时报发布文章,指出多家利用大模型开发应用的AI初创企业,正迅速增加销售额,引发了一场将AI技术商业化的竞争。 投资者对Cursor、Perplexity、…

    2025年12月4日
    000
  • Linux下安装SQLServer2019的方法

    可以直接参考官方文档:https://www.php.cn/link/32824c14387bff0a269b11c976c1d0d0 安装SQL Server 首先,下载 SQL Server 2019 (15.x) 的 Red Hat 存储库配置文件: sudo curl -o /etc/yum…

    2025年12月4日
    000
  • Linux实现自动挂载autofs的方法详解

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 目录 实现自动挂载-autofs autofs工具简单使用 autofs配置详细说明 自动挂载资源有两种格式 优化Linux系统性能 安装Tuned 选择调整配置文件 检查系统推荐的调整配置文件…

    2025年12月4日
    200
  • CSS中cursor属性pointer和default的使用场景

    在网页设计中,正确使用cursor属性能提升交互体验,常见值pointer用于可点击元素,default用于普通状态。具体来说:1. 当元素可点击时用cursor: pointer,如超链接、按钮、下拉菜单触发区域等;2. 不可点击的元素应使用cursor: default,如纯文本、静态图片、已禁…

    2025年12月2日 web前端
    000
  • 构建AI智能体:决策树的核心机制(一):刨根问底鸢尾花分类中的参数推理计算

    ​一、初识决策树 想象一个生活中的场景,我们去水果店买一个西瓜,该怎么判断一个西瓜是不是又甜又好的呢?我们可能会问自己一系列问题: 首先看看它的纹路清晰吗?如果“是”,那么它可能是个好瓜。如果“否“,那我们可能会问下一个问题:敲起来声音清脆吗? 如果“是”,那么它可能还是个不错的瓜。如果“否“,那我…

    2025年12月2日 科技
    000
  • DeepSeek怎样用代码解释器绘函数图_DeepSeek用代码解释器绘函数图【函数绘图】

    首先确保导入numpy和matplotlib库,然后定义函数表达式并生成x、y坐标点,接着调用plt.plot()绘制曲线并添加标签和网格,最后使用plt.show()显示图像或plt.savefig()保存为文件。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSe…

    2025年12月2日 科技
    000
  • Writesonic怎样用生成续写扩篇幅_Writesonic用生成续写扩篇幅【篇幅扩展】

    使用Writesonic可有效扩写文章:一、用“Continue Writing”功能生成连贯续写;二、通过“Explain this in detail with examples”指令深化内容;三、以“Provide a counter-argument”引入多视角论述;四、利用FAQ生成器创建…

    2025年12月2日 科技
    000
  • ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项

    在法国巴黎举行了国际计算机视觉大会ICCV(International Conference on Computer Vision)本周开幕 作为全球计算机视觉领域顶级的学术会议,ICCV 每两年召开一次。 ICCV的热度一直以来都与CVPR不相上下,屡创新高 在今天的开幕式上,ICCV官方公布了今…

    2025年12月2日 科技
    000
  • 生产式AI驱动的主机自动化测试

    译者 | 陈峻 审校 | 重楼 将传统大型主机应用的代码和数据迁移到现代化技术架构上,被认为是企业数字化发展的关键步骤。在追求效率和可扩展性的过程中,这种转变通常涉及从传统大型主机环境迁移到更灵活的云计算或内部部署方案中。这样的转型有助于企业实现更高的灵活性和创新能力,同时降低成本和提高安全性。这种…

    2025年12月2日 科技
    000
  • Kubernetes调试终极武器: K8sGPT

    随着人工智能和机器学习技术的不断发展,企业和组织开始积极探索创新战略,以利用这些技术来提升竞争力。 K8sGPT[2]是该领域内功能强大的工具之一,它是基于k8s的GPT模型,兼具k8s编排的优势和GPT模型出色的自然语言处理能力。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使…

    2025年12月2日 科技
    000
  • 「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统

    在普渡大学数字孪生实验室的最新研究中,科学家们采用了一项革命性技术——利用大型语言模型(llm)来增强自动驾驶汽车的智能指令解析能力。这一创新为自动驾驶技术的发展带来了新的可能性,有望提高车辆对驾驶指令的理解和响应速度。 这项技术的关键是Talk2Drive框架,旨在利用人类自然语言来操控自动驾驶汽…

    2025年12月2日 科技
    000
  • 变革性趋势:生成式人工智能及其对软件开发的影响

    人工智能的崛起正在推动软件开发的快速发展。这一强大技术有可能彻底改变我们构建软件的方法,对设计、开发、测试和部署等各个方面都会产生深远影响。 对于企图进入动态软件开发领域的企业来说,生成式人工智能技术的问世为它们提供了前所未有的发展机遇。将这一前沿技术纳入其开发流程后,公司可以大幅提升生产效率、缩短…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信