Python中如何进行特征工程？Featuretools

程序猿 • 2025年12月14日 02:44:07 • 用户投稿 • 阅读 0

1.featuretools通过自动化特征生成提升python特征工程效率，其核心步骤包括：构建entityset定义数据关系；使用dfs算法自动生成特征。2.示例代码展示了如何从customers和transactions表创建entityset，添加数据与时间索引，并定义客户与交易的关系。3.执行dfs时指定聚合与转换算子，生成客户特征矩阵，max_depth控制特征复杂度。4.加入products表可扩展entityset，实现跨多表自动特征提取，如客户购买产品的平均价格等。5.面对大规模数据，可通过限制max_depth、选择性使用算子、自定义primitives及设置cutoff_time优化性能。6.生成的大量特征需后续进行特征选择与后处理以提高模型效果。

在Python中进行特征工程，尤其是在处理复杂关系数据时，Featuretools是一个非常强大的工具，它通过自动化特征生成过程，极大地提升了效率和模型性能。它能将散落在不同表格中的信息，巧妙地聚合、转化，最终形成模型可以直接使用的特征矩阵，这大大减轻了数据科学家手动构建特征的负担。

解决方案

使用Featuretools进行特征工程的核心步骤，首先是构建一个EntitySet来描述数据中的实体（表）及其之间的关系。接着，利用Deep Feature Synthesis (DFS)算法自动生成大量潜在特征。

假设我们有两张表：customers（客户信息）和transactions（交易记录），每个客户有多笔交易。

立即学习“Python免费学习笔记（深入）”；

import featuretools as ftimport pandas as pd# 模拟数据customers_df = pd.DataFrame({    'customer_id': [1, 2, 3],    'age': [30, 45, 22],    'gender': ['M', 'F', 'M']})transactions_df = pd.DataFrame({    'transaction_id': [101, 102, 103, 104, 105],    'customer_id': [1, 1, 2, 3, 2],    'amount': [10.5, 20.0, 5.0, 15.0, 8.0],    'transaction_time': pd.to_datetime(['2023-01-01', '2023-01-05', '2023-01-02', '2023-01-03', '2023-01-06'])})# 1. 创建EntitySetes = ft.EntitySet(id="customer_transactions")# 2. 添加实体（表）到EntitySet# index参数指定主键es = es.add_dataframe(dataframe_name="customers",                      dataframe=customers_df,                      index="customer_id")es = es.add_dataframe(dataframe_name="transactions",                      dataframe=transactions_df,                      index="transaction_id",                      time_index="transaction_time") # 针对时间序列数据，指定time_index# 3. 定义实体之间的关系# relationship(parent_dataframe_name, parent_dataframe_index, child_dataframe_name, child_dataframe_foreign_key)# 这里表示transactions表通过customer_id与customers表关联es = es.add_relationship(parent_dataframe_name="customers",                         parent_column_name="customer_id",                         child_dataframe_name="transactions",                         child_column_name="customer_id")# 4. 执行Deep Feature Synthesis (DFS)# target_dataframe_name 指定我们希望为哪个实体生成特征# agg_primitives: 聚合特征，如SUM, MEAN, COUNT等# trans_primitives: 转换特征，如DAY, MONTH, SINE等features, feature_defs = ft.dfs(entityset=es,                                target_dataframe_name="customers",                                agg_primitives=["sum", "mean", "count", "max", "min"],                                trans_primitives=["day", "month", "weekday"],                                max_depth=2) # max_depth控制特征的复杂程度print(features.head())

这段代码展示了如何从原始数据到生成特征矩阵的全过程。max_depth参数控制了特征的“深度”，比如max_depth=2意味着可以从客户的交易中聚合出特征，然后这些聚合特征还可以再进行转换。

Featuretools的核心理念：从数据关系到自动化特征

我第一次接触Featuretools时，那种感觉就像是发现了一个宝藏。它最吸引我的地方，就是它对“数据关系”的深刻理解和自动化。传统特征工程，我们往往需要手动去思考不同表之间怎么连接、怎么聚合、怎么转换，这不仅耗时，而且非常依赖领域知识和经验。Featuretools则把这个过程抽象成一个叫做EntitySet的东西。

EntitySet就好比一个数据库的Schema，它不仅仅存储了各个数据表（在Featuretools里叫dataframe或entity），更重要的是，它明确定义了这些表之间的主外键关系。有了这些关系，Featuretools的Deep Feature Synthesis (DFS)算法就能像一个不知疲倦的侦探一样，沿着这些关系链条，自动探索并生成各种有意义的特征。它会尝试各种聚合（比如一个客户的总交易额、平均交易额），也会尝试各种转换（比如交易日期是周几、月份），甚至会将聚合后的特征再进行转换，形成更复杂的特征。这种层层递进、由浅入深的特征生成方式，正是“Deep”的含义。它模仿了人类专家在分析数据时，从基本事实出发，逐步构建复杂概念的思维过程。这玩意儿，真有点意思。

实践：如何用Featuretools快速构建基础特征

上面已经给出了一个基本的代码示例，但我想再强调一些实践中的细节。在使用Featuretools时，最容易让人一头雾水的地方，可能是如何正确地定义EntitySet以及其中的relationship。如果你有多个表，而且它们之间存在复杂的层级关系（比如客户-订单-订单详情），那么你需要确保所有的主键和外键都正确地被识别和关联。

举个例子，如果我们的transactions表还有个product_id，并且我们有个products表：

# 模拟产品数据products_df = pd.DataFrame({    'product_id': [1001, 1002, 1003],    'category': ['Electronics', 'Books', 'Food'],    'price_per_unit': [500, 20, 5]})# 再次创建EntitySet，加入products表es_complex = ft.EntitySet(id="customer_transactions_products")es_complex = es_complex.add_dataframe(dataframe_name="customers",                                      dataframe=customers_df,                                      index="customer_id")es_complex = es_complex.add_dataframe(dataframe_name="transactions",                                      dataframe=transactions_df,                                      index="transaction_id",                                      time_index="transaction_time")es_complex = es_complex.add_dataframe(dataframe_name="products",                                      dataframe=products_df,                                      index="product_id")# 添加客户与交易的关系es_complex = es_complex.add_relationship(parent_dataframe_name="customers",                                         parent_column_name="customer_id",                                         child_dataframe_name="transactions",                                         child_column_name="customer_id")# 添加交易与产品的关系es_complex = es_complex.add_relationship(parent_dataframe_name="products",                                         parent_column_name="product_id",                                         child_dataframe_name="transactions",                                         child_column_name="product_id") # 假设transactions表有product_id列# 现在可以为customers生成特征，这些特征会包含产品信息# 比如：客户购买的平均产品价格，客户购买过的产品类别数量等features_complex, feature_defs_complex = ft.dfs(entityset=es_complex,                                                target_dataframe_name="customers",                                                agg_primitives=["sum", "mean", "count"],                                                trans_primitives=[],                                                max_depth=3) # 深度可以更深，以探索更复杂的特征print(features_complex.head())

通过这样的方式，Featuretools能够自动从customers -> transactions -> products的路径上，为每个客户聚合出与产品相关的特征。这在传统方法下，需要多次的merge和groupby操作，而且容易出错。

超越基础：Featuretools在复杂场景下的优化与考量

尽管Featuretools功能强大，但在处理大规模或极端复杂的数据时，它也面临一些挑战，需要我们进行优化和考量。

首先是计算性能。当你的EntitySet包含数十亿行数据，或者关系深度非常大时，dfs的计算时间可能会非常长。这时，我们可以考虑以下策略：

减少max_depth：过深的特征不一定总是有用，反而会急剧增加计算量。通常max_depth=2或3就能捕捉到大部分有用的信息。选择性使用primitives：Featuretools内置了非常多的agg_primitives和trans_primitives。并非所有都适用于你的数据。只选择那些你认为可能相关的，可以显著减少特征数量和计算时间。自定义primitives：如果你有一些非常特定的业务逻辑需要生成特征，但Featuretools没有内置相应的primitive，你可以自己编写。这虽然增加了工作量，但能确保特征的业务相关性，同时避免生成大量无用特征。cutoff_time的使用：在时间序列预测任务中，我们通常需要避免数据穿越（data leakage），即用未来的信息预测过去。cutoff_time参数允许你指定一个时间点，只使用该时间点之前的数据来生成特征。这对于模拟真实的预测场景至关重要，也能控制每次特征生成的数据量。

其次是特征爆炸与特征选择。Featuretools的“自动化”在某种程度上也意味着“无差别生成”，它可能会生成成千上万个特征，其中大部分可能是高度相关、冗余或根本无用的。这会导致模型训练时间增加、过拟合风险上升。

事后特征选择：生成特征后，你需要进行传统的特征选择步骤，例如使用树模型的重要性、相关性分析、PCA降维等方法来筛选出最有价值的特征。预设特征列表：如果你对某些特征组合有明确的预期，可以直接在ft.dfs中通过features_only参数指定要生成的特征定义列表，而不是让它完全自由探索。这需要对数据和业务有较深的理解。

最后，Featuretools生成的特征虽然多，但并非所有都是“完美”的。有些特征可能需要进一步的后处理，比如缺失值填充、异常值处理、特征缩放等。Featuretools更多的是一个特征“生成器”，而不是一个“完美特征”输出器。它为你提供了一个强大的起点，但后续的数据清洗和预处理工作依然不可或缺。理解这些，能帮助你更高效、更负责任地使用Featuretools。

以上就是Python中如何进行特征工程？Featuretools的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1362664.html

python 工具特征工程

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python中如何实现递归函数递归算法的适用场景与注意事项

上一篇 2025年12月14日 02:25:04

Python中基于键值匹配合并多列表数据的高效策略

下一篇 2025年12月14日 02:45:34

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
3000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
1000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
4000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
1000
好文分享

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
3000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
1000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
1000
好文分享

html5如何建立站点_HTML5站点建立步骤与网站搭建技巧【指南】

HTML5网站搭建需五步：一、建my-website目录及css/js/images子目录，含index.html；二、写标准HTML5骨架，含DOCTYPE、lang、meta、语义化标签；三、外链CSS与defer/async脚本；四、用http-server启本地服务；五、用email/num…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
3000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
1000
好文分享

html5怎么去除黑点_html5用list-style:none去除ul/ol列表黑点【去除】

可通过 CSS 的 list-style 属性隐藏列表标记：一、list-style: none 最常用；二、list-style-type: none 精准移除符号；三、重置 list-style 全部子属性应对样式干扰；四、display: inline-block 配合 list-style:…

程序猿
2025年12月23日
1000
好文分享

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
1000
好文分享

html如何学好_学好HTML的关键点与练习【关键】

学好HTML需掌握基础语法结构、熟记语义化标签、通过真实项目练习、验证代码规范性并拆解优质网页源码。具体包括：标准HTML5骨架、正确使用header/nav/main等标签、构建个人页与新闻页、W3C校验及阅读mozilla.org源码。如果您希望掌握HTML语言并能熟练构建网页结构，则需要聚焦…

程序猿
2025年12月23日
2000