深度学习科研，如何高效进行代码和实验管理？

程序猿 • 2025年11月8日 10:17:20 • 用户投稿 • 阅读 0

回答一

作者：叶小飞
链接：https://www.zhihu.com/question/269707221/answer/2281374258

我之前在北美奔驰落地时，曾有段时间为了测试不同的结构和参数，一周能训练一百来个不同的模型，为此我结合公司前辈们的做法和自己的一点思考总结了一套高效的代码实验管理方法，成功帮助了项目落地, 现在在这里分享给大家。

使用Yaml文件来配置训练参数

我知道很多开源repo喜欢用input argparse来传输一大堆训练和模型相关的参数，其实非常不高效。一方面，你每次训练都需要手动输入大量参数会很麻烦，如果直接改默认值又要跑到代码里去改，会浪费很多时间。这里我推荐大家直接使用一个Yaml file来控制所有模型和训练相关的参数，并将该yaml的命名与模型名字和时间戳联系起来，著名的3d点云检测库OpenPCDet就是这么做的，如下方这个链接所示。

github.com/open-mmlab/OpenPCDet/blob/master/tools/cfgs/kitti_models/pointrcnn.yaml

我从上方给的链接截了该yaml文件部分内容，如下图所示，这个配置文件涵盖了如何预处理点云，classification的种类，还有backbone各方面的参数、optimzer和loss的选择（图中未展示，完整请看上方链接）。也就是说，基本所有能影响你模型的因素，都被涵括在了这个文件里，而在代码中，你只需要用一个简单的 yaml.load()就能把这些参数全部读到一个dict里。更关键的是，这个配置文件可以随着你的checkpoint一起被存到相同的文件夹，方便你直接拿来做断点训练、finetune或者直接做测试，用来做测试时你也可以很方便把结果和对应的参数对上。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

代码模块化非常重要

有些研究人员写代码时喜欢把整个系统写的过于耦合，比如把loss function和模型写到一起，这就会经常导致牵一发而动全身，你改动某一小块就会导致后面的接口也全变，所以代码模块化做的好，可以节省你许多时间。一般的深度学习代码基本可以分为这么几大块（以pytorch为例）：I/O模块、预处理模块、可视化模块、模型主体（如果一个大模型包含子模型则应该另起class)、损失函数、后处理，并在训练或者测试脚本里串联起来。代码模块化的另一好处，就是方便你在yaml里去定义不同方面的参数，便于阅览。另外很多成熟代码里都会用到importlib神库，它可以允许你不把训练时用哪个模型或者哪个子模型在代码里定死，而是可以直接在yaml里定义。

Tensorboard, tqdm用起来

这两个库我基本上每次必用。Tensorboard可以很好的追踪你训练的loss曲线变化，方便你判断模型是否还在收敛、是否overfit，如果你是做图像相关，还可以把一些可视化结果放在上面。很多时候你只需要看看tensorboard的收敛状态就基本知道你这个模型怎么样，有没有必要花时间再单独测试、finetune. Tqdm则可以帮你很直观地跟踪你的训练进度，方便你做early stop.

充分利用Github

无论你是多人合作开发还是单独项目，我都强烈建议使用Github（公司可能会使用bitbucket, 差不多）记录你的代码。具体可以参考我这篇回答：

作为一个研究生，有哪些你直呼好用的科研神器？
https://www.zhihu.com/question/484596211/answer/2163122684

记录实验结果

我一般会保存一个总的excel来记录实验结果，第一列是模型对应的yaml的路径，第二列是模型训练epoches, 第三列是测试结果的log, 我一般会把这个过程自动化，只要在测试脚本中给定总excel路径，利用pandas可以很轻松地搞定。

回答二

作者：Jason
链接：https://www.zhihu.com/question/269707221/answer/470576066

git管理代码是跟深度学习、科研都没关系的，写代码肯定要用版本管理工具。用不用github个人觉着倒是两可，毕竟公司内是不可能所有代码都挂外部git的。

那么说几个写代码的时候需要注意的地方吧：

1. 试验参数尽量使用config文件传入，并且config尽量与log文件同名保存。

一方面外部传入参数可以避免git上过多的版本修改是由于参数导致的，介于DL不好debug，有时候利用git做一下代码比对是在所难免的；

另一方面当试验了万千版本之后，相信你不会知道哪个model是哪些参数了，好的习惯是非常有效的。另外新加的参数尽量提供default值，方便调用老版的config文件。

2. 尽量让不同的模型之间解耦

同一个项目里，好的复用性是编程的一种非常好的习惯，但是在飞速发展的DL coding中，假设项目是以任务驱动的，这也许有时候会成为牵绊，所以尽量把可复用的一些函数提取出来，模型结构相关的尽量让不同的模型解耦在不同的文件中，反而会更加方便日后的update。否则一些看似优美的设计几个月之后就变得很鸡肋。

3. 在满足一定稳定性的同时，定期跟进新版的框架

往往有个尴尬的情况，从一个项目开始到结束，框架update了好几个版本，新版有一些让人垂涎若滴的特性，但是无奈有些api发生了change。所以在项目内可以尽量保持框架版本稳定，项目开始前尽量考量一下不同版本的利弊，有时候适当的学习是必要的。

代码小浣熊

代码小浣熊是基于商汤大语言模型的软件智能研发助手，覆盖软件需求分析、架构设计、代码编写、软件测试等环节

51 查看详情

另外，对不同的框架怀揣着一颗包容的心。

4. 一次训练的时间挺长的，coding结束不要盲目的就开始跑实验，个人经验提供debug模式来实验小数据+更多的log是个不错的选择。

5. 记录好随着模型update performance的变化，因为可能随时需要退回去重来。

作者：OpenMMLab
链接：https://www.zhihu.com/question/269707221/answer/2480772257
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

题主你好呀，前面的回答提到了使用 Tensorboard、Weights&Biases、MLFlow、Neptune 等工具来管理实验数据。然而随着实验管理工具的轮子越造越多，工具的学习成本也越来越高，我们又应该如何选择呢？

MMCV 满足你的所有幻想，通过修改配置文件就能实现工具的切换。

github.com/open-mmlab/mmcv

Tensorboard 记录实验数据：

配置文件：

log_config = dict( interval=1, hooks=[ dict(type='TextLoggerHook'), dict(type='TensorboardLoggerHook') ])

TensorBoard 数据可视化效果

WandB 记录实验数据

配置文件

log_config = dict( interval=1, hooks=[ dict(type='TextLoggerHook'), dict(type='WandbLoggerHook') ])

Wandb 数据可视化效果

（需要提前用 python api 登录 wandb）

Neptume 记录实验数据

配置文件

log_config = dict( interval=1, hooks=[ dict(type='TextLoggerHook'), dict(type='NeptuneLoggerHook',  init_kwargs=dict(project='Your Neptume account/mmcv')) ])

Neptume 可视化效果

mlflow 记录实验数据

配置文件

log_config = dict( interval=1, hooks=[ dict(type='TextLoggerHook'), dict(type='MlflowLoggerHook') ])

MLFlow 可视化效果

dvclive 记录实验数据

配置文件

log_config = dict( interval=1, hooks=[ dict(type='TextLoggerHook'), dict(type='DvcliveLoggerHook') ])

生成的 html 文件

以上只使用了各种实验管理工具最基本的功能，我们可以进一步修改配置文件来解锁更多姿势。

拥有了 MMCV，就相当于拥有了所有的实验管理工具。如果你以前是 tf boy，可以选择 TensorBoard 经典怀旧风；如果你想应有尽有的记录实验数据、实验环境，不妨尝试一下 Wandb（Weights & Biases）或者 Neptume；如果你的设备没法联网，可以选择 mlflow 将实验数据存到本地，总有一款工具适合你。

此外 MMCV 也有自己的日志管理系统，那就是 TextLoggerHook ！它会将训练过程中产生的全量信息，例如设备环境、数据集、模型初始化方式、训练期间产生的 loss、metric 等信息，全部保存到本地的 xxx.log 文件。你可以在不借助任何工具的情况下，回顾之前的实验数据。

还在纠结使用哪个实验管理工具？还在苦恼于各种工具的学习成本？赶快上车 MMCV ，几行配置文件无痛体验各种工具。

github.com/open-mmlab/mmcv

以上就是深度学习科研，如何高效进行代码和实验管理？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/478166.html

fig type 深度学习自动驾驶

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

开发一个App难吗？零基础也能自己制作App？

上一篇 2025年11月8日 10:17:18

实例详解thinkphp6使用jwt认证

下一篇 2025年11月8日 10:17:23

用户投稿

ChromaDB向量嵌入的有效持久化策略

本文详细介绍了如何利用langchain中chromadb的`persist_directory`功能，高效地持久化存储向量嵌入。通过将生成的嵌入数据保存到本地磁盘，可以有效避免重复计算，显著提升工作流程效率。教程将涵盖持久化chromadb实例的创建与后续加载的完整过程。在处理大规模文本数据并生…

程序猿
2026年5月10日
0000
PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

机器学习能超越传统方法的关键在于其对未知攻击的泛化识别能力。传统规则依赖已知模式，难以应对变种攻击；而机器学习通过分析代码的词法、句法、语义和数据流特征，构建抽象的行为模型，可识别未见过但模式相似的恶意代码。例如，即便攻击者使用编码或混淆技术，只要其数据流向敏感函数（如eval、system）的行为…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

typescript用来干嘛_typescript的作用

TypeScript 是一种用于构建大型复杂应用程序的开源编程语言，它扩展了 JavaScript 的功能，具有以下作用：类型系统：编译时检查类型错误，提高代码可靠性。面向对象编程特性：支持类、接口、抽象类，增强代码组织性和维护性。模块系统：分解程序为可重用模块，提升可维护性和可扩展性。全面的类型推…

程序猿
2026年5月10日
0000
用户投稿

html官方资源入口_html网站免费设计导航

html网站免费设计导航入口是https://www.htmldesignresources.com，该平台提供HTML模板、响应式示例、表单组件和CSS样式资源，支持预览、搜索、筛选与代码复制，并设有社区投稿、论坛交流及季度报告更新功能。 html网站免费设计导航入口在哪里？这是不少网页设计爱好者…

程序猿
2025年12月23日
0000
用户投稿

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
用户投稿

如何在Go Gin应用中集成前端JavaScript模块（如Sentry）

本文探讨了在Go Gin框架下，通过HTML模板服务前端页面时，如何有效集成JavaScript模块（如Sentry）。针对浏览器不直接支持Node.js模块导入语法的问题，文章详细阐述了利用CDN引入Sentry SDK的解决方案，并提供了具体的代码示例，帮助开发者实现前端错误监控功能，避免了复杂…

程序猿
2025年12月23日
1000
用户投稿

html官网浏览入口_html网站设计免费平台

html官网浏览入口在https://www.codepen.io，该平台支持实时预览代码、创建Pen项目、Fork开源示例，可添加外部资源，具备点赞评论收藏等社区互动功能，设有挑战活动与作品集分类，开放API接口，界面简洁适合初学者，在线编写无需配置环境，支持多种预处理器和响应式测试。 html官…

程序猿
2025年12月23日
0000
用户投稿

HTML数据怎样进行情感分析 HTML数据情感挖掘的实现路径

答案是：从HTML中提取有效文本并进行情感分析需先清理标签获取正文，再经文本预处理、分词与去噪后，应用词典、机器学习或深度学习模型判断情感倾向，最终整合结果并可视化，实现舆情监控与评价分析。对HTML数据进行情感分析，核心在于从网页内容中提取有效文本，并在此基础上应用自然语言处理技术判断情感倾向。…

程序猿
2025年12月23日
0000
用户投稿

HTML5 section怎么用_HTML5内容分区标签应用场景说明

在HTML5中，标签用于定义文档中具有明确主题的独立内容区块，需包含标题以体现其结构性与语义性，常用于文章章节、产品模块等场景，区别于无语义的和可独立分发的。在HTML5中，section 标签用于定义文档中的一个独立内容区块。它不是简单的容器，而是有语义的结构化标签，表示文档中一个主题性的分区，…

程序猿
2025年12月23日
0000
用户投稿

htm算法前景如何_分析HTM算法应用前景

HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值，其无需大量标注数据的特性适合工业监控、网络安防等领域；但受限于生态薄弱、性能不及主流模型及工程实现难度，短期内难以成为主流，更可能作为边缘计算或AI系统补充技术，在特定专业领域持续发展。 HTM（Hierarchical Tempor…

程序猿
2025年12月23日
0000
用户投稿

html如何修改日期样式

在html中，可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式，只需要用该选择器选中元素，在设置具体样式即可，具体语法为“::-webkit-datetime-edit{属性:属性值}”。本教程操作环境：windows7系统、CSS3&&HTML…

程序猿
2025年12月21日
1000
用户投稿

单选框的type属性值为什么

单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型；值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。在HTML中，…

程序猿
2025年12月21日
0000
用户投稿

HTML中type是什么意思

在HTML中，type是类型的意思，是一个标签属性，主要用于定义标签元素的类型或文档（脚本）的MIME类型；例在input标签中type属性可以规定input元素的类型，在script标签中type属性可以规定脚本的MIME类型。本教程操作环境：windows7系统、html5版、Dell G3电…

程序猿
2025年12月21日
0000
HTML中ul标签如何去掉点？HTML无序列表的样式实例解析

本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉，还有关于html的无序列表ul标签的样式解释，给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的：大家应该都使用过ul无序列表标签，ul…

程序猿
2025年12月21日 • 用户投稿
0000
html中的ol标签如何去掉标号呢？标签的使用方法总结

本篇文章介绍了html的ol标签是怎么去掉序号标号的，这里还有代码的详细解释，还有介绍了关于html ol有序列表标签如何更改序号，下文介绍了三种序号，大家也可以自己去想填写怎样的序号。现在来看这篇文章吧一、我们先看看html中的ol标签是如何去掉标号的呢：我们都知道html的ol标签是个有序列…

程序猿
2025年12月21日 • 用户投稿
0000
用户投稿

HTML ul标签的什么意思？HTML ul标签的作用详解

本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法，还有关于html ul标签的解释，包含li标签的还有type属性对ul标签的使用情况，好了，下面大家一起来看文章吧首先让我们先来解释一下HTML ul标签的意思： ul标签定义的是表格当中无序列表，表格当中的无序列表都是在标签之中…

程序猿
2025年12月21日
0000
用户投稿

javascript框架和库是什么_如何选择React、Vue或Angular？

JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构；React是UI组件库，生态灵活但需自行整合工具；Vue渐进式易上手，兼顾原型与工程化；Angular是全功能TypeScript框架，适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合，用来简化前端开发——…

程序猿
2025年12月21日
0000
用户投稿

React应用生产环境环境变量配置深度指南

本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题，深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码，指导开发者正确配置和使用环境变量，解决api调用层面的`null`响应问题，确保应用在生产环境下的稳定运行。在React应用开发中，环境变量（如API密钥…

程序猿
2025年12月21日
0000
用户投稿

JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

JSDoc是一种JavaScript结构化注释规范，通过@param、@returns等标签描述代码元素，并借助工具生成HTML文档，结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解（Annotation）像Java那样的语法，但通过约定的注释格式和配套工具，可…

程序猿
2025年12月21日
0000
用户投稿

JS注解怎么标注联合类型_ JS联合类型的注解书写与使用技巧

在JavaScript中可通过JSDoc使用联合类型注解，如string|number表示多类型支持，结合@param、@typedef等标签提升代码可读性与编辑器提示，适用于函数参数、返回值等场景。在JavaScript中，虽然原生不支持类型注解，但在使用JSDoc配合现代编辑器（如VS Cod…

程序猿
2025年12月21日
0000