AlexNet-经典神经网络论文阅读记录及复现1

本文记录《ImageNet Classification with Deep Convolutional Neural Networks》论文阅读及AlexNet复现。汇总了top-1/top-5错误率、卷积运算、ReLU、局部响应归一化等知识点,并用PaddlePaddle复现该网络,其含5个卷积层和3个全连接层,还介绍了网络结构与参数情况。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

alexnet-经典神经网络论文阅读记录及复现1 - 创想鸟

AlexNet-经典神经网络论文阅读记录及复现

一、论文中涉及的“小知识点”汇总:

1、top-1 and top-5 error rates.

top-1 and top-5 error rates 是ImageNet图像分类大赛的两个评价标准。 首先介绍一下top-1 error rates。神经网络模型应用于图像分类中,最后的softmax层对应的相应类别会输出不同的概率,我们取最大的概率为模型输出的分类结果,即为该模型预测的分类类别。先看top-1 error rates的公式:Top-1 = (正确标记与模型输出的标记不同的样本) / 总样本。 #换句话说,就是:预测错误的样本 / 总样本(也就是预测错误率)。这里也就体现了“error”的意义。对于Top-5:Top-5 = (正确标记不在模型输出的前五个最佳标记中的样本) / 总样本。#详细的解释:对于一张图片,输入AlexNet网络模型中,该网络设计的最后一层softmax有一千个输出(即一千个类别),所以有一千个概率输出。将这一千个概率从大到小进行排序,取前五个概率,如果输入的图片类别属于这前五个类别中的一个,则不计入Top-5公式的分子当中。

2、2D convolution and computation.

 卷积运算,一种特征提取方法。通过卷积运算,可以将图像的特征进行抽象,它提高了特征提取的能力。所以,如果从一种直观感觉这一角度去理解卷积神经网络为什么会在图像领域收到一个很好的效果,相比于只有全连接层的神经网络。我觉得正是卷积层的加入,使得这一网络具有“高层语义”的表达能力。

AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟

3、神经网络的“神秘性”

 我在这里写的“神秘性”的意思是,主要是我个人的理解(也可以认为我在瞎扯淡)。 在这篇论文Introduction部分的第四段中有这样一句话:Our final network contains five convolutional and three fully-connected layers, and this depth seems to be important: we found that removing any convolutional layer(each of which contains no more than 1% of the model's parameters)resulted in inferior performance.它的意思是说,在AlexNet网络中,如果去除掉任意一个卷积层(尽管每个卷积层所含的参数量还不到整个网络参数量的百分之一)都会是整个网络的表现下降。我觉得这是一件很有意思的事情,因为你无法知道为什么会这样,就像在论文Visualizing and Understanding Convolutional Networks中提到的那样:There is no clear understanding of why they perform so well, or how they might be improved. 似乎并没有严格的数学证明来证明它,我觉得这使得它同时兼具理性和感性的魅力。这也是神经网络最吸引我的地方。

4、ReLU Nonlinearity.

类似于生物的神经元的激活,人工神经网络的神经元的激活也是一样的道理,只有当这一刺激达到一定程度,我们的神经元才会做出一定的反应,不然,它是不会做出任何反应的。为了模拟这一生物过程,相应的,我们需要一定的方法,引入一定的概念,才能对这一过程进行模拟。于是激活函数这一概念便被引入进来,用相应的数学方法来完成对这一过程的模拟。另外,如果不使用激活函数,就相当于激活函数是fx = x,也就是说上一层与下一层之间是线性关系,那么再多层的这种线性关系就相当于是一层的线性关系。那么这样,网络的逼近能力也就非常的有限了。

下面是各种不同的激活函数:

sigmoid:

AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟

tanh:

AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟

ReLU:

AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟

ELU:

AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟

softmax:

AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟

5、Back-propagation:

反向传播和误差反向传播有着相同的思想:将“关系”从末端传递到头部。只是通过不同的“关系”表达的而已。

反向传播算法: AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟

误差反向传播中,误差的定义:

AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟

误差反向传播算法:

AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟

6、Multiple GPUs training:

将卷积神经网络中的运算平均拆分到两个GPU上。

7、Local Response Normalization.(局部响应归一化)

局部响应归一化(LRN)是一种竞争机制,对局部神经元活动创建的竞争机制。通过局部响应归一化,使其中响应较大的神经元活动更剧烈,并抑制其它反馈较小的神经元,增强了模型的泛化能力。

8、Overlapping pooling.

所谓的“重叠池化”,简而言之,就是filter size > strides。

9、Reducing Overfitting.(with Data Augmentation and Dropout )

该篇论文中减小过拟合的两个方法就是数据增强和“Dropout”方法。 论文中介绍了两种数据增强的方法,这里稍微记录一下第二种:(PCA主成分分析方法,一种使用广泛的数据降维方法。)AlexNet-经典神经网络论文阅读记录及复现1 - 创想鸟

In [ ]

#首先,设置环境:import paddleimport paddle.nn as nnimport paddle.nn.functional as Ffrom paddle.io import Dataset, BatchSampler, DataLoaderfrom paddle.vision.transforms import ToTensorimport numpy as np#使用paddlepaddle搭建搭建AlexNet:in_channels = 3#conv_filter_numsfilter_nums1 = 96filter_nums2 = 256filter_nums3 = 384#convcsize1 = 11csize2 = 5csize3 = 3cstride1 = 4cstride2 = 1#Maxpooling pstride = 2psize = 3  #this is what was called overlapping pooling.#MaxPool3D(kernel_size, stride=None, padding=0)#Conv3D(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, padding_mode='zeros')class AlexNet(paddle.nn.Layer):    def __init__(self, num_classes):          super(AlexNet, self).__init__()          self.conv1 = nn.Conv2D(in_channels, filter_nums1, (csize1, csize1), cstride1, padding = 1)          self.pool1 = nn.MaxPool2D(psize, pstride, padding = 2)                  self.conv2 = nn.Conv2D(filter_nums1, filter_nums2, (csize2, csize2), cstride2, padding = 2)          self.pool2 = nn.MaxPool2D(psize, pstride, padding = 0)          self.conv3 = nn.Conv2D(filter_nums2, filter_nums3, (csize3, csize3), cstride2, padding = 1)          self.conv4 = nn.Conv2D(filter_nums3, filter_nums3, (csize3, csize3), cstride2, padding = 1)          self.conv5= nn.Conv2D(filter_nums3, filter_nums2, (csize3, csize3), cstride2, padding = 1)          self.pool5 = nn.MaxPool2D(psize, pstride, padding = 0)          self.flatten = nn.Flatten()          self.fclayer1 = nn.Linear(9216, 4096)          self.fclayer2 = nn.Linear(4096, 4096)          self.fclayer3 = nn.Linear(4096, num_classes)          self.lrn = nn.LocalResponseNorm(size=96) #tatal channels? what is that mean?          self.relu = nn.ReLU()          self.dropout = nn.Dropout(p = 0.5)          self.softmax = nn.Softmax()    def forward(self, in_data):          out_data = self.conv1(in_data)          out_data1 = self.lrn(out_data)          out_data1 = self.relu(out_data1)          out_data1 = self.pool1(out_data1)          out_data1 = self.conv2(out_data1)          out_data1 = self.relu(out_data1)          out_data1 = self.pool2(out_data1)          out_data1 = self.conv3(out_data1)          out_data1 = self.relu(out_data1)          out_data1 = self.conv4(out_data1)          out_data1 = self.relu(out_data1)          out_data1 = self.conv5(out_data1)          out_data1 = self.relu(out_data1)          out_data1 = self.pool5(out_data1)          out_data1 = self.flatten(out_data1)          out_data1 = self.dropout(out_data1)          out_data1 = self.fclayer1(out_data1)          out_data1 = self.dropout(out_data1)          out_data1 = self.fclayer2(out_data1)          out_data1 = self.fclayer3(out_data1)          out_data1 = self.softmax(out_data1)          return out_data1model = paddle.Model(AlexNet(1000))model.summary((64, 3, 224, 224))
-------------------------------------------------------------------------------   Layer (type)         Input Shape          Output Shape         Param #    ===============================================================================     Conv2D-6       [[64, 3, 224, 224]]    [64, 96, 54, 54]       34,944     LocalResponseNorm-2  [[64, 96, 54, 54]]    [64, 96, 54, 54]          0             ReLU-2        [[64, 256, 13, 13]]   [64, 256, 13, 13]          0           MaxPool2D-4      [[64, 96, 54, 54]]    [64, 96, 28, 28]          0            Conv2D-7        [[64, 96, 28, 28]]   [64, 256, 28, 28]       614,656        MaxPool2D-5     [[64, 256, 28, 28]]   [64, 256, 13, 13]          0            Conv2D-8       [[64, 256, 13, 13]]   [64, 384, 13, 13]       885,120         Conv2D-9       [[64, 384, 13, 13]]   [64, 384, 13, 13]      1,327,488        Conv2D-10      [[64, 384, 13, 13]]   [64, 256, 13, 13]       884,992        MaxPool2D-6     [[64, 256, 13, 13]]    [64, 256, 6, 6]           0            Flatten-3       [[64, 256, 6, 6]]        [64, 9216]             0            Dropout-2          [[64, 4096]]          [64, 4096]             0            Linear-4           [[64, 9216]]          [64, 4096]        37,752,832        Linear-5           [[64, 4096]]          [64, 4096]        16,781,312        Linear-6           [[64, 4096]]          [64, 1000]         4,097,000        Softmax-2          [[64, 1000]]          [64, 1000]             0       ===============================================================================Total params: 62,378,344Trainable params: 62,378,344Non-trainable params: 0-------------------------------------------------------------------------------Input size (MB): 36.75Forward/backward pass size (MB): 550.85Params size (MB): 237.95Estimated Total Size (MB): 825.56-------------------------------------------------------------------------------
{'total_params': 62378344, 'trainable_params': 62378344}

以上就是AlexNet-经典神经网络论文阅读记录及复现1的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/45872.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 15:22:18
下一篇 2025年11月7日 15:22:58

相关推荐

  • Go语言反射:正确判断结构体字段接口实现的机制与实践

    本文深入探讨go语言中利用反射判断结构体字段是否实现特定接口的机制。重点阐述了`reflect.type.implements`方法的工作原理,并揭示了值接收者和指针接收者对接口实现判断结果的关键影响。通过详细的代码示例,清晰展示了在不同接收者类型下,反射如何识别或忽略接口实现,帮助开发者避免常见陷…

    2025年12月16日
    000
  • 如何在Golang中处理goroutine竞争条件

    使用互斥锁、通道、原子操作和竞态检测工具可有效解决Go中goroutine的共享资源竞争问题,关键在于识别并发访问并采取同步措施。 Go语言中的goroutine让并发编程变得简单,但多个goroutine同时访问共享资源时容易引发竞争条件(race condition)。要正确处理这类问题,关键在…

    2025年12月16日
    000
  • 如何在Golang中处理JSON数组与对象

    答案:Golang中处理JSON需用encoding/json库,固定结构用结构体加tag,动态结构用map[string]interface{},数组用切片解析,序列化用json.Marshal,反序列化用json.Unmarshal,注意omitempty、类型断言和指针传递细节。 在Golan…

    2025年12月16日
    000
  • Go语言通道深度解析:理解无缓冲通道的死锁陷阱

    本文深入探讨了go语言中通道(channel)的正确使用,特别是无缓冲通道的特性及其引发死锁的常见场景。通过分析一个具体的代码示例,我们揭示了当多个go协程同时尝试从无缓冲通道接收数据而没有发送者时,程序会陷入死锁的原因。文章还提供了多种正确的通道使用模式和常见的死锁反例,旨在帮助开发者避免并发编程…

    2025年12月16日
    000
  • 如何在 Go 中动态创建函数并作为参数传递

    本文将深入探讨 Go 语言中动态创建函数并将其作为参数传递的方法。我们将通过一个示例,详细解释函数字面量、接口实现以及函数作为一等公民的概念,帮助你理解如何在运行时创建和使用自定义行为的函数。 在 Go 语言中,函数是一等公民,这意味着函数可以像其他任何类型的值一样被传递、赋值和返回。这种特性为动态…

    2025年12月16日
    000
  • Go语言中解决包名被变量遮蔽的方法

    在go语言开发中,当局部变量名与导入的包名相同时,可能导致包无法访问。本文将详细介绍如何通过在导入时为包设置别名来解决这一常见的命名冲突问题,确保代码的清晰性和可维护性,是处理go命名冲突的有效策略。 在Go语言的实际开发中,开发者有时会遇到一个常见的命名冲突问题:导入的包名与局部作用域内的变量名相…

    2025年12月16日
    000
  • Go语言中定位与解决导入循环问题的策略

    go语言的“导入循环不允许”错误在大型项目中难以定位,因其错误信息通常过于简洁。本文将介绍该问题的根源,并提供利用go工具链(特别是已修复此问题的最新版本或从源码编译)来诊断和解决导入循环的有效策略,帮助开发者高效管理项目依赖,确保代码结构清晰。 理解Go语言的导入循环 在Go语言中,导入循环(Im…

    2025年12月16日
    000
  • 深入理解Go语言Channel死锁:原理、案例与防范

    本文旨在深入探讨go语言中常见的channel死锁问题。通过分析一个具体的代码案例,详细阐述了当接收方期望的数值多于发送方实际提供的数值时,死锁是如何发生的。文章将解析死锁的触发机制,并提供关键的预防策略和最佳实践,帮助开发者有效避免在并发编程中遇到此类问题。 Go语言以其内置的并发原语——goro…

    2025年12月16日
    000
  • Go语言结构体多标签定义指南:bson与json的正确用法

    本文详细介绍了go语言结构体中定义多个字段标签(如`bson`和`json`)的正确方法。通过实例代码和官方文档解释,阐明了应使用空格而非逗号作为不同标签键值对的分隔符,以确保数据序列化和反序列化时的字段映射准确无误,提升代码的健壮性和可读性。 在Go语言的开发实践中,我们经常需要将结构体数据序列化…

    2025年12月16日
    000
  • Go语言中扩展或修改现有包函数行为:原理与替代方案

    go语言设计哲学不直接支持对现有包函数进行覆盖或猴子补丁。本文将深入探讨go语言为何缺乏此类机制,并提供三种实用的替代方案:通过自定义函数包装现有逻辑、分叉并修改原始包,或重新评估设计并选择更合适的库。这些方法能帮助开发者在保持go语言核心优势的同时,实现对外部包行为的灵活控制。 在Go语言的开发实…

    2025年12月16日
    000
  • Go语言中同时等待多个通道的实现方法

    本文探讨了在Go语言的`select`语句中如何实现同时等待多个通道的功能。由于Go语言本身的限制,无法直接在一个`case`子句中等待多个通道。本文将介绍几种替代方案,包括不使用`select`、使用循环、使用goroutine以及使用`sync.WaitGroup`等方法,并分析各自的适用场景,…

    2025年12月16日
    000
  • Go语言中修改外部包函数行为的策略:原理与替代方案

    go语言的设计哲学阻止了直接重写或覆盖现有包的函数。本文旨在阐明go语言中为何无法直接进行此类操作,并提供三种实用的替代方案,帮助开发者在不直接修改第三方包代码的前提下,实现对外部函数行为的定制或扩展,包括包分叉、创建包装器函数以及重新设计或选择其他库。 Go语言以其简洁、高效和强类型特性而闻名。在…

    2025年12月16日
    000
  • Go/mgo 中处理 MongoDB 日期字段的多态性及查询策略

    本文旨在探讨在 go 语言中使用 mgo 驱动与 mongodb 交互时,如何高效处理可能为 `time.time`、布尔值 `false` 或未定义的日期字段。我们将介绍在 go 应用层面的 `time.time` 有效性验证,以及通过 `mgo` 提供的 `bson.m` 和 mongodb 查…

    2025年12月16日
    000
  • Golang工作区管理:如何在单个GOPATH下组织多个项目

    本文旨在介绍如何在Golang中,利用单个GOPATH工作区管理多个项目。通过合理的目录结构和编译指令,开发者可以在同一工作区内开发、测试和运行多个独立的Go程序,提高开发效率和代码组织性。 在Golang开发中,GOPATH扮演着至关重要的角色,它指向你的工作区,包含了你的源代码、依赖包和编译后的…

    2025年12月16日
    000
  • 如何在Golang中处理网络连接重试

    答案是使用指数退避与随机抖动策略处理Golang网络重试,通过控制重试次数、增加间隔时间及识别临时错误,避免服务过载。 在Golang中处理网络连接重试,关键在于控制重试次数、设置合理的重试间隔,并对临时性错误进行识别和处理。直接频繁重试可能加重服务负担,而完全不重试又可能导致短暂故障时请求失败。下…

    2025年12月16日
    000
  • Go语言中if语句与短变量声明符:=的作用域解析

    本文深入探讨go语言中`if`语句内使用短变量声明符`:=`时变量作用域的限制。当`:=`在`if`条件中声明变量时,这些变量仅在其所属的代码块内有效,导致在块外部无法访问。文章将通过示例代码详细解释这一机制,并提供多种正确的变量声明与错误处理模式,帮助开发者避免常见的“未定义变量”错误,提升代码的…

    2025年12月16日
    000
  • Go语言:利用反射将结构体转换为字符串切片

    本文介绍了如何使用Go语言的 reflect 包,将结构体中的字段值转换为 []string 类型的字符串切片。这种方法可以避免手动访问结构体的每个字段,尤其适用于字段数量较多的情况,方便将结构体数据写入CSV文件或其他需要字符串切片的场景。 在Go语言中,将结构体转换为 []string 是一种常…

    2025年12月16日
    000
  • Go语言中短变量声明与变量遮蔽:解决“声明但未使用”编译错误

    go语言中,短变量声明(`:=`)在特定场景下可能导致变量遮蔽(shadowing),进而引发“declared and not used”编译错误。本文将深入解析go语言中短变量声明的工作机制、变量遮蔽的原理及其对程序行为的影响,并提供明确的解决方案,帮助开发者避免和修复此类常见的编译问题,提升代…

    2025年12月16日
    000
  • Go语言模型结构化:避免循环引用与管理依赖的实践指南

    本文深入探讨了go语言中模型(model)的结构化策略,旨在解决常见的循环引用问题并提供数据库连接等外部依赖的惯用处理方式。通过强调go语言的包设计哲学,建议将相互关联的模型置于同一包内,避免不必要的过度拆分。同时,文章阐述了如何利用接口和依赖注入模式,以清晰、可测试的方式管理数据库连接,并提出了大…

    2025年12月16日
    000
  • App Engine Channel API 的线程安全与原子性

    本文旨在探讨 Google App Engine Channel API 在多线程或任务队列环境下发送消息时的线程安全性和原子性问题。通过分析并发场景下的潜在风险,我们将阐明 App Engine API 调用的一般原则,并提供在实际开发中保证数据一致性的建议。 在使用 Google App Eng…

    2025年12月16日
    000

发表回复

登录后才能评论
关注微信