深度卷积生成对抗网络实战

程序猿 • 2025年11月10日 05:21:17 • 科技 • 阅读 0

译者 | 朱先忠

审校 | 孙淑娟

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

红葡萄园（作者：Vincent van Gogh）

据《纽约时报》报道，数据中心90%的能源被浪费，这是因为公司收集的大部分数据从未被分析或以任何形式使用。更具体地说，这被称为“暗数据（Dark Data）”。

“暗数据”是指通过各种计算机网络操作获取的数据，但不以任何方式用于得出见解或进行决策。组织收集数据的能力可能超过其分析数据的吞吐量。在某些情况下，组织甚至可能不知道正在收集数据。IBM估计，大约90%的传感器和模数转换产生的数据从未被使用。——维基百科上的“暗数据”定义

从机器学习的角度来看，这些数据对于得出任何见解都没有用处的关键原因之一是缺乏标签。这使得无监督学习算法对于挖掘这些数据的潜力非常有吸引力。

生成对抗网络

2014年，Ian Goodfello等人提出了一种通过对抗过程估计生成模型的新方法。它涉及同时训练两个独立的模型：一个生成器模型试图建模数据分布，另一个鉴别器试图通过生成器将输入分类为训练数据或假数据。

该论文在现代机器学习领域树立了一块非常重要的里程碑，为无监督学习开辟了新的途径。2015年，深度卷积Radford等人发布的GAN论文通过应用卷积网络的原理成功地生成了2D图像，从而继续构建了论文中的这一思想。

通过本文，我试图解释上述论文中论述的关键组件，并使用PyTorch框架来实现它们。

GAN哪些地方引人注目？

为了理解GAN或DCGAN（深度卷积生成对抗网络：Deep Convolutional Generative Adversarial Networks）的重要性，首先让我们来了解一下是什么使它们如此流行。

1. 由于大部分真实数据未标记，GAN的无监督学习特性使其非常适合此类用例。

2. 生成器和鉴别器对于具有有限标记数据的用例起到非常好的特征提取器的作用，或者生成附加数据以改进二次模型训练，因为它们可以生成假样本而不是使用增强技术。

3. GANs提供了最大似然技术的替代方法。它们的对抗性学习过程和非启发式成本函数使得它们对强化学习非常有吸引力。

4. 关于GAN的研究非常有吸引力，其结果引起了关于ML/DL影响的广泛争论。例如，Deepfake是GAN的一种应用，它可以将人的面部覆盖在目标人身上，这在本质上是非常有争议的，因为它有可能被用于邪恶的目的。

5. 最后一点也是最重要的一点是，使用这种网络很酷，该领域的所有新研究都令人着迷。

整体架构

深度卷积GAN的架构

正如我们前面所讨论的，我们将通过DCGAN进行工作，DCGAN试图实现GAN的核心思想，用于生成逼真图像的卷积网络。

DCGAN由两个独立的模型组成：一个生成器（G）尝试将随机噪声向量建模为输入并尝试学习数据分布以生成假样本，另一个鉴别器（D）获取训练数据（真实样本）和生成的数据（假样本），并尝试对它们进行分类。这两种模型之间的斗争就是我们所说的对抗性训练过程，一方的损失是另一方的利益。

生成器

生成器架构图

生成器是我们最感兴趣的部分，因为它是一个生成假图像以试图欺骗鉴别器的生成器。

现在，让我们更详细地了解一下生成器的架构。

线性层：将噪声矢量输入到完全连接层中，然后将其输出变形为4D张量。批量归一化层：通过将输入归一化为零均值和单位方差来稳定学习，这避免了梯度消失或爆炸等训练问题，并允许梯度流过网络。上采样层：根据我对论文的解释，其中提到使用上采样（upsampling），然后在其上应用简单的卷积层，而不是使用卷积转置层进行上采样。但我见过一些人使用卷积转置，所以具体应用策略由你自己作决定。二维卷积层：当我们对矩阵进行上采样时，我们以1的步长将其通过卷积层，并使用相同的填充，使其能够从上采样数据中学习。ReLU层：本文提到使用ReLU代替LeakyReLU作为生成器，因为它允许模型快速饱和并覆盖训练分布的颜色空间。TanH激活层：本文建议我们使用TanH激活函数来计算生成器输出，但没有详细说明为什么。如果我们不得不作一下猜测的话，这是因为TanH的性质允许模型更快收敛。

其中，层2至层5构成核心生成器块，可以重复N次以获得所需的输出图像形状。

百度妙笔

百度旗下AI创意生成平台

443 查看详情

下面是我们如何在PyTorch中实现它的关键代码（完整源码见地址https://github.com/akash-agni/ReadThePaper/blob/main/DCGAN/dcgan.py）。

使用PyTorch框架的生成器实现关键代码

鉴别器

鉴别器架构图

从图中易见，鉴别器更像是一个图像分类网络，只是做了一些小的调整。例如，它没有使用任何池层进行下采样，而是使用了一种称为跨距卷积层（stride convolutional layer）的特殊卷积层，允许它学习自己的下采样。

下面，让我们更详细地了解一下鉴别器架构。

Concat层：该层将假图像和真实图像组合在一个批次中，以提供给鉴别器，但这也可以单独完成，仅用于获得生成器损耗。卷积层：我们在这里使用跨距卷积（stride convolution），它允许我们在一次训练中对图像进行下采样并学习滤波器。LeakyReLU层：正如论文所提到的，与原始GAN论文的最大输出函数相比，它发现Leakyrelus对于鉴别器非常有用，因为它允许更容易的训练。Dropout层：仅用于训练，有助于避免过度拟合。该模型有记忆真实图像数据的倾向，在这一点上训练可能崩溃，因为鉴别器不能再被生成器“愚弄”了。批量归一化层：论文提到，它在每个鉴别器块（第一个除外）的末尾应用批量归一化。论文提到的原因是，在每个层上应用批量归一化会导致样本振荡和模型不稳定。线性层：一个完全连接层，从通过应用的2D批次归一化层中获取一个重新定义形状的向量。Sigmoid激活层：因为我们正在处理鉴别器输出的二进制分类，所以做出了Sigmoidd层逻辑选择。

在该架构中，层2至层5构成鉴别器的核心块，可以重复N次计算以使模型对于每个训练数据更复杂。

下面是我们如何在PyTorch中实现它（完整源码见地址https://github.com/akash-agni/ReadThePaper/blob/main/DCGAN/dcgan.py）。

用PyTorch实现的鉴别器关键代码部分

对抗训练

我们训练鉴别器（D）以最大化将正确标签分配给训练样本和来自生成器（G）的样本的概率，这可以通过最小化log(D(x))来完成。我们同时训练G以最小化log(1 − D(G(z)))，其中z代表噪声向量。换句话说，D和G都是使用值函数V (G, D)来玩以下两人极小极大博弈（two-player minimax game）：

对抗性成本函数计算公式

在实际应用环境中，上述方程可能无法为G提供足够的梯度来很好地学习。在学习的早期，当G较差时，D可以以高置信度拒绝样本，因为它们与训练数据明显不同。在这种情况下，log(1 − D(G(z)))函数达到饱和。我们不是训练G以最小化log(1 − D(G(z)))，而是训练G以最大化logD(G(z))。该目标函数能够生成动态G和D的相同的固定点，但在学习早期却提供了更强的梯度计算。——arxiv论文

由于我们同时训练两个模型，这可能会很棘手，而GAN是出了名的难以训练，我们将在后面讨论的已知问题之一称为模式崩溃（mode collapse）。

论文建议使用学习率为0.0002的Adam优化器，如此低的学习率表明GAN倾向于非常快地发散。它还使用值为0.5和0.999的一阶和二阶动量来进一步加速训练。模型初始化为正态加权分布，平均值为零，标准差为0.02。

下面展示的是我们如何为此实现一个训练循环（完整源码见https://github.com/akash-agni/ReadThePaper/blob/main/DCGAN/dcgan.py）。

DCGAN的训练循环

模式崩溃（Mode Collapse）

理想情况下，我们希望生成器生成各种输出。例如，如果它生成人脸，它应该为每个随机输入生成一个新的人脸。但是，如果发生器产生足够好的似是而非的输出从而能够欺骗鉴别器的话，它可能会一次又一次地产生相同的输出。

最终，生成器会对单个鉴别器进行过度优化，并在一小组输出结果之间旋转（rotate），这种情况称为“模式崩溃”。

以下方法可用于纠正该情况。

Wasserstein损失函数法（Wasserstein loss）：Wasserstin损失函数通过让您将鉴别器训练到最优而无需担心梯度消失，从而减轻模式崩溃。如果鉴别器没有陷入局部极小值，它会学习拒绝生成器稳定的输出。因此，生成器必须尝试新的东西。展开GAN法（Unrolled GANs）：展开GAN使用生成器损失函数，该函数不仅包含当前鉴别器的分类，还包含未来鉴别器版本的输出。因此，生成器不能针对单个鉴别器进行过度优化。

应用

风格转换：面部修饰应用程序现在都在大肆宣传。其中，面部老化、哭脸和名人脸变形等只是当前社交媒体上已经广泛流行的一部分应用程序而已。视频游戏：3D对象的纹理生成和基于图像的场景生成只是帮助视频游戏行业更快开发更大游戏的一部分应用程序。电影行业：CGI（计算机合成图像）已经成为模型电影的一大组成部分，凭借GAN带来的潜力，电影制作人现在可以实现比以往更大的梦想。语音生成：一些公司正在使用GAN来改进文本到语音的应用，通过使用它们来生成更真实的语音。图像恢复：使用GANs对受损图像进行去噪和恢复，对历史图像进行着色，并通过生成缺失帧来改进旧视频，以提高帧率。

结论

总之，本文上面提到的有关GAN和DCGAN的论文简直称的上是一篇里程碑式的论文，因为它在无监督学习方面开辟了一条新的途径。其中提出的对抗式训练方法为训练模型提供了一种新的方法，该模型紧密模拟真实世界的学习过程。因此，了解一下这个领域是如何发展的将是一件非常有趣的事情。

最后，您可以在我的GitHub源码仓库上找到本文示例工程完整的实现源码。

译者介绍

朱先忠，51CTO社区编辑，潍坊一所高校计算机教师，自由编程界老兵一枚。

原文标题：Implementing Deep Convolutional GAN，作者：Akash Agnihotri

以上就是深度卷积生成对抗网络实战的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/569472.html

type 数据暗数据机器学习

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

AI 和 ML 在 DevOps 转型中的作用

上一篇 2025年11月10日 05:20:28

预测性维护：利用人工智能确保业务连续性

下一篇 2025年11月10日 05:21:31

好文分享

动态生成HTML表格：优化JavaScript数据展示与导出

本文旨在解决JavaScript中动态生成HTML表格时遇到的代码冗余和样式控制难题。通过引入数据驱动的编程思想，我们将数据与视图逻辑分离，首先将表格内容组织为JavaScript对象数组，然后利用一个通用的函数将这些结构化数据渲染为可读性强、易于维护且支持灵活样式的HTML表格字符串。这种方法不仅…

程序猿
2025年12月23日
0000
好文分享

HTML5性能优化怎么实现_HTML5新特性在性能优化方面的应用方法

HTML5通过语义化标签、Web Storage、Canvas/SVG、Service Worker和原生媒体支持等技术提升性能：1. 语义化标签优化渲染效率；2. Web Storage减少网络请求；3. Canvas/SVG降低资源加载量；4. Service Worker实现离线缓存；5. 原…

程序猿
2025年12月23日
0000
好文分享

利用UTM参数与GTM优化链接点击来源追踪

本文详细阐述了如何通过UTM参数精准追踪营销链接的点击来源，并深入探讨了Google Tag Manager (GTM) 在此过程中的高级应用。文章首先介绍了UTM参数的构成、生成方法及其在Google Analytics中的自动解析机制，强调其在识别流量来源方面的核心作用。随后，探讨了GTM如何通…

程序猿
2025年12月23日
0000
好文分享

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
好文分享

HTML数据如何用于机器学习 HTML数据预处理的特征工程方法

首先解析HTML提取文本与元信息，再从结构、文本、样式三方面构建特征：1. 用BeautifulSoup等工具解析HTML，提取标题、正文、链接及属性；2. 统计标签频率、DOM深度、路径模式等结构特征；3. 清洗文本并采用TF-IDF或词嵌入向量化；4. 提取class、id、样式、脚本等交互与视…

程序猿
2025年12月23日
0000
好文分享

如何在Go Gin应用中集成前端JavaScript模块（如Sentry）

本文探讨了在Go Gin框架下，通过HTML模板服务前端页面时，如何有效集成JavaScript模块（如Sentry）。针对浏览器不直接支持Node.js模块导入语法的问题，文章详细阐述了利用CDN引入Sentry SDK的解决方案，并提供了具体的代码示例，帮助开发者实现前端错误监控功能，避免了复杂…

程序猿
2025年12月23日
0000
好文分享

html官网浏览入口_html网站设计免费平台

html官网浏览入口在https://www.codepen.io，该平台支持实时预览代码、创建Pen项目、Fork开源示例，可添加外部资源，具备点赞评论收藏等社区互动功能，设有挑战活动与作品集分类，开放API接口，界面简洁适合初学者，在线编写无需配置环境，支持多种预处理器和响应式测试。 html官…

程序猿
2025年12月23日
0000
好文分享

如何通过HTML在线展示数据_HTML在线数据展示实现与可视化方案

网页展示数据需结合HTML、CSS与JavaScript，首选table展示结构化数据，配合Chart.js等库实现可视化图表，通过fetch加载远程JSON动态渲染内容，并利用响应式设计与交互优化提升用户体验。在网页中展示数据，核心是将结构化信息清晰、直观地呈现给用户。HTML本身是内容载体，结…

程序猿
2025年12月23日
0000
好文分享

html在线几何图形绘制 html在线SVG应用实战教程

使用HTML与SVG结合可高效绘制几何图形。SVG基于XML，支持圆形、矩形、多边形、路径等，在任意分辨率下清晰。1. 基础元素包括rect、circle、ellipse、line、polygon、polyline和path。2. 实战示例：用polygon绘制三角形，path绘制五角星和弧线仪表盘…

程序猿
2025年12月23日
0000
好文分享

单页应用（SPA）中特定分类数据的API直链访问与性能考量

针对单页应用（SPA），本文探讨了如何通过URL直接访问特定分类数据，而非依赖客户端UI交互。文章揭示了SPA在初始加载时已获取所有数据，因此客户端分类选择对数据加载量无影响。核心策略是绕过前端界面，直接调用后端API获取所需数据，从而实现高效且精准的数据访问，并提供了具体API示例。理解单页应用…

程序猿
2025年12月23日
1000
好文分享

jQuery循环中动态表格数据访问与比较教程

本文详细介绍了在jQuery循环中处理动态生成表格数据时常见的挑战与解决方案。我们将探讨如何正确使用.find()代替.children()来定位嵌套元素，解决.data()方法返回数字类型导致比较错误的问题，并提供一个基于事件监听的实用示例，以实现对用户修改数据的实时检测和保存。动态表格数据处理…

程序猿
2025年12月22日
0000
揭秘canvas技术在数据可视化中的独特威力

发现Canvas技术在数据可视化中的独特作用随着数据时代的到来，数据可视化成为了一种重要的方式来呈现大量的数据。在数据可视化中，Canvas技术以其独特的优势在各个领域展示了巨大的潜力。本文将着重介绍Canvas技术在数据可视化中的独特作用，并给出具体的代码示例。 Canvas是HTML5中的一个…

程序猿
好文分享 2025年12月21日
0000
好文分享

使用localstorage存储数据所需的包有哪些？

localstorage是HTML5中的一项重要技术，它可以用来在客户端本地存储数据。在使用localstorage存储数据之前，我们需要确保在代码中引入合适的包来操作这个功能。在使用localstorage之前，我们需要在HTML文件中添加以下代码来引入localstorage的相关包：在以上…

程序猿
2025年12月21日
0000
好文分享

无法将数据保存到localstorage，为什么？

为什么我的数据无法保存到localstorage中？本文将详细讨论为何在某些情况下，数据无法保存到本地存储(localstorage)中。同时，我将提供一些具体的代码示例以帮助您解决这个问题。首先，让我们来了解一下什么是localstorage。localstorage是HTML5中引入的一种W…

程序猿
2025年12月21日
0000
好文分享

如何将HTML表单数据作为文本并发送到html2pdf？

html2pdf 是一个 JavaScript 包，允许开发人员将 html 转换为 canvas、pdf、图像等。它将 html 作为参数并将其添加到 pdf 或所需文档中。此外，它还允许用户在添加 html 内容后下载该文档。在这里，我们将访问表单并使用html2pdf npm包将其添加到pd…

程序猿
2025年12月21日
0000
好文分享

标题标签：你想知道的一切

html，用于构建网页的语言，严重依赖于标头标签。它们用于排列和组织网页内容，使其更易于阅读和理解。标题标签范围从 h1 到 h6。 h1 是最重要的标题标签，而 h6 是最不重要的。这些标题标签有助于组织页面的内容，使其更易于阅读和导航。它们还用于告知用户和搜索引擎有关页面内容的信息，这对于 se…

程序猿
2025年12月21日
0000
好文分享

html如何修改日期样式

在html中，可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式，只需要用该选择器选中元素，在设置具体样式即可，具体语法为“::-webkit-datetime-edit{属性:属性值}”。本教程操作环境：windows7系统、CSS3&&HTML…

程序猿
2025年12月21日
1000
好文分享

单选框的type属性值为什么

单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型；值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。在HTML中，…

程序猿
2025年12月21日
0000
好文分享

HTML中type是什么意思

在HTML中，type是类型的意思，是一个标签属性，主要用于定义标签元素的类型或文档（脚本）的MIME类型；例在input标签中type属性可以规定input元素的类型，在script标签中type属性可以规定脚本的MIME类型。本教程操作环境：windows7系统、html5版、Dell G3电…

程序猿
2025年12月21日
0000
HTML中ul标签如何去掉点？HTML无序列表的样式实例解析

本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉，还有关于html的无序列表ul标签的样式解释，给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的：大家应该都使用过ul无序列表标签，ul…

程序猿
2025年12月21日 • 好文分享
0000