深度学习中的代码数据增强：5年89篇研究综述

程序猿 • 2025年11月8日 02:53:19 • 用户投稿 • 阅读 0

随着深度学习和大型模型的快速发展，对创新技术的追求不断增加。在这个过程中，数据增强技术展现出了不可忽视的价值

最近，由蒙纳士大学、新加坡管理大学、华为诺亚方舟实验室、北京航空航天大学以及澳大利亚国立大学联合进行的对近 5 年的 89 篇相关研究调查，发布了一份关于代码数据增强在深度学习中应用的全面综述。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/abs/2305.19915项目地址：https://github.com/terryyz/DataAug4Code

这份综述不仅深入探讨了代码数据增强技术在深度学习领域的应用，还展望了其未来的发展潜力。作为一种在不收集新数据的情况下增加训练样本多样性的技术，代码数据增强已在机器学习研究中获得广泛应用。这些技术对于资源匮乏领域的数据驱动模型性能提升具有显著意义。

然而，在代码建模领域，这种方法的潜力还没有被充分挖掘。代码建模是机器学习和软件工程相交的新兴领域，涉及应用机器学习技术来解决各种代码任务，例如代码补全、代码摘要和缺陷检测。代码数据具有多模态特性（编程语言和自然语言），这为定制数据增强方法带来了独特的挑战

这份综述报告是由多个顶级学术和工业机构联合发布的。它不仅深入揭示了代码数据增强技术，还为未来的研究和应用提供了指导。我们相信，这份综述将激发更多研究者对代码数据增强在深度学习中的应用产生兴趣，并推动该领域的进一步探索和发展

背景介绍

代码模型的兴起与发展：代码模型是基于大量源代码语料库训练的，能够精准地模拟代码片段的上下文。从早期采用 LSTM 和 Seq2Seq 等深度学习架构，到后来融入预训练语言模型，这些模型已经在多个源代码的下游任务中显示出了出色的性能。例如，有些模型在预训练阶段就考虑了程序的数据流，这是代码的语义层面结构，用于捕捉变量间的关系。

数据增强技术的意义：数据增强技术通过数据合成来增加训练样本的多样性，从而提高模型在各方面（如准确性和稳健性）的性能。在计算机视觉领域，例如，常用的数据增强方法包括图像裁剪、翻转和颜色调整。而在自然语言处理中，数据增强则大量依赖于语言模型，这些模型能够通过替换词汇或重写句子来改写上下文。

代码数据增强的特殊性：与图像和纯文本不同，源代码受到编程语言严格句法规则的限制，因此增强的灵活性较低。大多数代码的数据增强方法必须遵守特定的转换规则，以保持原始代码片段的功能性和语法。常见的做法是使用解析器构建源代码的具体句法树，然后转换为抽象句法树，简化表示的同时保留关键信息，如标识符和控制流语句。这些转换是基于规则的数据增强方法的基础，它们帮助模拟现实世界中更多样的代码表示，提高了代码模型通过增强数据训练的稳健性。

代码数据增强方法的深度探索

在深入探讨代码数据增强的世界中，作者将这些技术主要分为三类：基于规则的技术、基于模型的技术和示例插值技术。下面简要介绍了这些不同的分支。

基于规则的技术：许多数据增强方法利用预定规则来转换程序，同时保证不破坏语法规则和语义。这些转换包括替换变量名、重命名方法名和插入无效代码等操作。除了基本的程序语法，一些转换还考虑更深层的结构信息，如控制流图和使用 – 定义链。有一部分基于规则的数据增强技术专注于增强代码片段中的自然语言上下文，包括文档字符串和注释。

基于模型的技术：一系列针对代码模型的数据增强技术旨在训练各种模型来增强数据。例如，一些研究利用辅助分类生成对抗网络（ACGAN）来生成增强程序。另一些研究则训练了生成对抗网络，以同时提升代码生成和代码搜索的能力。这些方法主要是针对代码模型特别设计的，旨在通过不同方式增强代码的表示和上下文理解。

示例插值技术：这类数据增强技术源自 Mixup，它通过插值输入和两个或更多实际样本的标签来操作。例如，给定计算机视觉中的二分类任务和两张分别是狗和猫的图片，这些数据增强方法可以将这两张图片的输入和它们对应的标签根据随机选择的权重混合在一起。然而，在代码领域，这些方法的应用受到独特的程序语法和功能的限制。相比于表面层次的插值，大多数示例插值数据增强方法通过模型嵌入将多个真实样例融合为单一输入。例如，有研究将基于规则的技术与 Mixup 结合，混合原始代码片段及其转换后的表示。

策略与技术

在实际应用中，针对代码模型的数据增强技术的设计和有效性受到多种因素的影响，例如计算成本、样本多样性和模型的稳健性。本节重点介绍了这些因素，提供了设计和优化适合的数据增强方法的洞见和技巧。

方法堆叠：在之前的讨论中，许多数据增强策略在单一工作中被同时提出，目的是增强模型的性能。通常，这种组合包括两种类型：同类型数据增强或不同数据增强方法的混合。前者通常应用于基于规则的数据增强技术，其出发点在于单一代码转换无法完全代表现实世界中多样的代码风格和实现。一些工作展示了将多种类型的数据增强技术融合可以增强代码模型的性能。例如，结合基于规则的代码转换方案和基于模型的数据增强来创建增强的语料库，用于模型训练。而另一些研究则在编程语言上增强，包括两种数据增强技术：基于规则的非关键词提取和基于模型的非关键词替换。

优化：在某些场景中，如增强稳健性和最小化计算成本，选择特定增强样例候选者至关重要。作者将这种目标导向的候选选择在数据增强中称为优化。文章主要介绍三种策略：概率性选择、基于模型的选择和基于规则的选择。概率性选择是通过从概率分布中采样进行优化，而基于模型的选择则由模型指导选择最合适的例子。在基于规则的选择中，使用特定预定的规则或启发式来选择最合适的例子。

概率性选择：作者专门选择了三种代表性的概率性选择策略，包括 MHM、QMDP 和 BUGLAB-Aug。MHM 采用 Metropolis-Hastings 概率采样方法，这是一种马尔可夫链蒙特卡洛技术，用于通过标识符替换选择对抗性示例。QMDP 使用 Q-learning 方法来战略性地选择和执行基于规则的结构转换。

基于模型的选择：采用这种策略的一些数据增强技术利用模型的梯度信息来指导增强样例的选择。一个典型的方法是数据增强 MP 方法，它基于模型损失进行优化，选择并通过变量重命名生成对抗性示例。SPACE 通过梯度上升对代码标识符的嵌入进行选择和扰动，目标是在保持编程语言的语义和语法正确性的同时最大化模型的性能影响。

基于规则的选择：基于规则的选择是一种强大的方法，它使用预定的适应度函数或规则。这种方法通常依赖于决策指标。例如，IRGen 使用基于遗传算法的优化技术和基于 IR 相似性的适应度函数。而 ACCENT 和 RA 数据增强 R 分别使用 BLEU 和 CodeBLEU 等评估指标来指导选择和替换过程，以实现最大的对抗性影响。

应用场景

数据增强方法可直接应用于几种常见的代码场景中

对抗性示例用于稳健性：稳健性在软件工程中是一个关键且复杂的维度。设计有效的数据增强技术来生成对抗性示例，以识别和减轻代码模型中的漏洞，已成为近年来的一个研究热点。多个研究利用各种数据增强方法测试和增强模型的稳健性，进一步加强了代码模型的稳健性。

低资源领域：在软件工程领域，编程语言资源严重不平衡。流行的编程语言如 Python 和 Java 在开源仓库中扮演主要角色，而许多语言如 Rust 资源非常匮乏。代码模型通常基于开源仓库和论坛进行训练，编程语言资源的不平衡可能会对它们在资源匮乏的编程语言上的性能产生不利影响。在低资源领域内应用数据增强方法是一个反复出现的主题。

检索增强：在自然语言处理和代码领域，检索增强的数据增强应用越来越受到关注。这些针对代码模型的检索增强框架在预训练或微调代码模型时纳入来自训练集的检索增强示例，这种增强方法提高了模型的参数效率。

对比学习：对比学习是另一个代码场景中部署数据增强方法的应用领域。它使模型能够学习一个嵌入空间，在这个空间中，相似样本彼此接近，而不相似的样本则相距较远。数据增强方法被用于构造与正样本相似的样例，以提高模型在缺陷检测、克隆检测和代码搜索等任务中的性能。

接下来的文章讨论了几个常见的代码任务，以及数据增强工作在评估数据集上的应用，包括克隆检测、缺陷检测和修复、代码摘要、代码搜索、代码生成和代码翻译

挑战与机遇

在代码数据增强方面，作者认为面临着许多重大的挑战。然而，正是这些挑战为该领域带来了新的可能性和令人激动的机遇

理论探讨：目前，对代码中数据增强方法的深入探索和理论理解存在明显差距。大多数现有研究集中在图像处理和自然语言领域，将数据增强视为一种应用预先存在的关于数据或任务不变性的知识的方法。转向代码时，虽然以前的工作引入了新方法或演示了数据增强技术如何有效，但它们经常忽略了特别是从数学角度来看的原因和方式。代码的离散性质使得理论讨论变得更为重要。理论讨论使大家能够从更广阔的视角理解数据增强，而不仅仅是根据实验结果。

预训练模型的更多研究：近年来，预训练的代码模型在代码领域得到了广泛应用，通过大规模语料库的自我监督积累了丰富的知识。尽管许多研究利用预训练代码模型进行了数据增强，但大多数尝试仍局限于遮罩令牌替换或微调后的直接生成。在代码领域中，利用大规模语言模型的数据增强潜力是一个新兴的研究机会。

不同于以前在数据增强中使用预训练模型的方式，这些工作开启了「基于提示的数据增强」时代。然而，在代码领域中，基于提示的数据增强探索仍然是一个相对未被触及的研究领域。重写后的内容：不同于以前在数据增强中使用预训练模型的方式，这些工作开启了「基于提示的数据增强」时代。然而，在代码领域中，基于提示的数据增强的研究仍然相对较少

处理特定领域数据：作者重点调查了处理代码的常见下游任务的数据增强技术。然而，作者意识到在代码领域的其他特定任务数据方面仍有少量研究。例如，API 推荐和 API 序列生成可以被视为代码任务的一部分。作者观察到在这两个不同层次之间的数据增强技术存在差距，为未来工作探索提供了机会。

项目级别代码和低资源编程语言的更多探索：现有方法在函数级别代码片段和常见编程语言方面取得了足够的进展。同时，低资源语言的增强方法虽然需求更大，但却相对稀缺。在这两个方向的探索仍然有限，作者认为它们可能是有前景的方向。

缓解社会偏见：随着代码模型在软件开发中的进步，它们可能被用于开发以人为中心的应用程序，如人力资源和教育，其中偏见程序可能导致对代表性不足的人群做出不公正和不道德的决定。虽然 NLP 中的社会偏见已经得到了很好的研究并可以通过数据增强进行缓解，但代码中的社会偏见尚未受到关注。

小样本学习：在小样本场景中，模型需要实现与传统机器学习模型相媲美的性能，但训练数据极其有限。数据增强方法为这个问题提供了直接的解决方案。然而，在小样本场景中采用数据增强方法的工作还很有限。在少数样本场景中，如何通过生成高质量的增强数据为模型提供快速泛化和问题解决能力，作者觉得这是一个有趣的问题。

多模态应用：需要注意的是，仅关注函数级别的代码片段并不能准确地代表真实世界编程情况的复杂性和细微差别。在这种情况下，开发人员通常同时处理多个文件和文件夹。尽管这些多模态应用变得越来越流行，但尚未有研究对它们应用数据增强方法。挑战之一是在代码模型中有效地桥接每种模态的嵌入表示，这已在视觉 – 语言多模态任务中进行了研究。

缺乏统一：当前的代码数据增强文献呈现出一个具有挑战性的景观，其中最流行的方法通常被描绘为辅助性的。一些实证研究试图比较代码模型的数据增强方法。然而，这些工作没有利用大多数现有的先进数据增强方法。尽管存在针对计算机视觉（如 PyTorch 中的默认增强库）和 NLP（如 NL-Augmenter）的公认数据增强框架，但对于代码模型的通用数据增强技术相应库明显缺失。此外，由于现有数据增强方法通常使用各种数据集进行评估，因此很难确定其有效性。因此，作者认为通过建立标准化和统一的基准任务，以及用于比较和评估不同增强方法的有效性的数据集，将大大促进数据增强研究的进展。这将为更系统和比较性地理解这些方法的优势和局限性铺平道路。

以上就是深度学习中的代码数据增强：5年89篇研究综述的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/459498.html

ai 模型

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Windows聚焦壁纸不更新怎么办？锁屏背景自动更换修复

上一篇 2025年11月8日 02:53:18

Linux系统开发: 学习linux三剑客(awk、sed、grep)(下)

下一篇 2025年11月8日 02:53:23

用户投稿

Golang JSON序列化：控制敏感字段暴露的最佳实践

本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时，通过利用`encoding/json`包提供的结构体标签，特别是`json:”-“`，可以轻松实现对特定字段的忽略，从而避免敏感数据泄露，确保api…

程序猿
2026年5月10日
0000
用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

SFINAE 是“替换失败不是错误”的原则，指模板实例化时若参数替换导致错误，只要存在其他合法候选，编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景，如通过 decltype 或 enable_if 控制函数重载，实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

程序猿
2026年5月10日
0000
用户投稿

Go语言mgo查询构建：深入理解bson.M与日期范围查询的正确实践

本文旨在解决go语言mgo库中构建复杂查询时，特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性，解释为何直接索引`interface{}`会导致“invalid operation”错误，并提供一种推荐的、结构清晰的代码重构方案，以确保查询条件能够正确…

程序猿
2026年5月10日
1000
用户投稿

Golang goroutine与channel调试技巧

使用go run -race检测数据竞争，结合runtime.NumGoroutine监控协程数量，通过pprof分析阻塞调用栈，利用select超时避免永久阻塞，有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心，但它们也带来了调试上…

程序猿
2026年5月10日
0000
用户投稿

使用 Jupyter Notebook 进行探索性数据分析

Jupyter Notebook通过单元格实现代码与Markdown结合，支持数据导入（pandas）、清洗（fillna）、探索（matplotlib/seaborn可视化）、统计分析（describe/corr）和特征工程，便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

程序猿
2026年5月10日
0000
《魔兽世界》将于6月11日开启国服回归技术测试

《%ign%ignore_a_1%re_a_1%》官方宣布，将于6月11日开启国服回归技术测试，时间为7天，并称可以在6月内正式开服，玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端，技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情以上就是《…

程序猿
2026年5月10日 • 用户投稿
2000
用户投稿

如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

HTML表单通过标签构建，包含action和method属性定义数据提交目标与方式，常用input类型如text、password、email等适配不同输入需求，配合label、required、placeholder提升可用性，结合textarea、select、button等控件实现完整交互，是…

程序猿
2026年5月10日
0000
用户投稿

创建指定大小并填充特定数据的Golang文件教程

本文将介绍如何使用Golang创建一个指定大小的文件，并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件，从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件，并将其填充为全零数据。掌握这些方法，可以方便地在例如日志系统或磁盘队列等场景中，预先创建测试文件或初始…

程序猿
2026年5月10日
0000
用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000
如何插入查询结果数据_SQL插入Select查询结果方法

使用INSERT INTO…SELECT语句可高效插入数据，通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复；表结构不一致时可通过别名、类型转换、默认值或计算字段处理；结合存储过程可提升可维护性，支持参数化与动态SQL。将查询结果数据插入到另一个表中，可以…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

使用 WebCodecs VideoDecoder 实现精确逐帧回退

本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时，实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳，可以避免渲染中间帧，从而提高用户体验。本文将提供详细的解决方案和示例代码，帮助开发者实现精确的视频帧控制。在使用 WebCodecs VideoDecod…

程序猿
2026年5月10日
0000
用户投稿

Debian Copilot的社区活跃度如何

debian copilot是codeberg社区维护的ai助手，旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据，但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况： Debian拥有详尽的…

程序猿
2026年5月10日
0000
用户投稿

Discord.py 交互按钮超时与持久化解决方案

本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图（View）的超时机制，并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案，确保您的机器人交互功能稳定可靠，即…

程序猿
2026年5月10日
0000
用户投稿

JavaScript 动态菜单点击高亮效果实现教程

本教程详细介绍了如何使用 JavaScript 实现动态菜单的点击高亮功能。通过事件委托和状态管理，当用户点击菜单项时，被点击项会高亮显示（绿色），同时其他菜单项恢复默认样式（白色）。这种方法避免了不必要的DOM操作，提高了性能和代码可维护性，确保了无论点击方向如何，功能都能稳定运行。动态菜单高亮…

程序猿
2026年5月10日
2000
用户投稿

c++如何实现UDP通信_c++基于UDP的网络通信示例

UDP通信基于套接字实现，适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址（接收方）、发送（sendto）与接收（recvfrom）数据、关闭套接字；2. 服务端监听指定端口，接收客户端消息并回传；3. 客户端发送消息至服务端并接收响应；4. 跨平台需处理Winsock初始化与库链接，编…

程序猿
2026年5月10日
0000
用户投稿

JavaScript函数中插入加载动画（Spinner）的正确方法

本文旨在解决在JavaScript函数中插入加载动画（Spinner）时遇到的异步问题。通过引入async/await和Promise.all，确保在数据处理完成前后正确显示和隐藏加载动画，提升用户体验。我们将提供两种实现方案，并详细解释其原理和优势。在Web开发中，当执行耗时操作时，显示加载动画…

程序猿
2026年5月10日
0000
用户投稿

使用 Pydantic v2 实现条件性必填字段

本文介绍了如何在 Pydantic v2 模型中实现条件性必填字段。通过自定义验证器，可以根据模型中其他字段的值来动态地控制某些字段是否为必填项，从而满足 API 交互中数据验证的复杂需求。本文提供了一个具体的示例，展示了如何确保模型中至少有一个字段被赋值。在 Pydantic v2 中，虽然没有…

程序猿
2026年5月10日
0000
三星不再独享，消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布

6 月 15 日消息，据博主@肥威今日爆料，搭载骁龙 8 Gen 3 领先版%ign%ignore_a_1%re_a_1%的新机即将发布，把之前的 for Galaxy 改成“for Everybody”。 Pic Copilot AI时代的顶级电商设计师，轻松打造爆款产品图片 158 查看详情 …

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

动态更新圆形进度条：JavaScript成绩计算器集成指南

本文档旨在指导开发者如何将JavaScript成绩计算系统与动态圆形进度条集成，实现可视化展示平均成绩。我们将详细讲解如何修改现有的JavaScript代码，使其在计算出平均分后，能够动态更新圆形进度条的进度，从而提供更直观的用户体验。本文档包含详细的代码示例和注意事项，帮助开发者轻松实现这一功能。…

程序猿
2026年5月10日
0000