【论文复现赛】ResNet18_3D

本文复现了3D ResNet-18在UCF-101数据集的表现,旨在验证视频数据集训练深3D卷积网络的可行性。基于PaddleVideo,修改2D ResNet-18得到3D网络,不使用预训练权重,经数据处理、训练等步骤,最终在UCF-101验证集准确率达43.98%,超目标值42.4%,印证相关结论。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

【论文复现赛】resnet18_3d - 创想鸟

【论文复现赛】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

本文的目标是检验当前的视频数据集是否有充足的数据来训练非常深的3D卷积神经网络(原文:The purpose of this study is to determine whether current video datasets have sufficient data for training very deep convolutional neural networks with spatio-temporal three-dimensional kernels),作者在当前的数据集上使用不同深度的网络进行了实验,得到以下几个结论:
1、ResNet-18在UCF-101,HMDB-51,ActivityNet数据集上过拟合,Kinetics数据集未过拟合;
2、Kinetics数据集有充分的数据训练深的3D卷积网络;
3、网络加载在Kinetics数据集预训练的权重,在其他数据集(UCF-101/HMDB-51)上也可以得到不错的效果。
本次复现的目标是不使用预训练权重,在UCF-101数据集准确率达到42.4%,本次复现的准确率为43.98%,本次复现基于PaddleVideo。
代码参考:
1、https://github.com/kenshohara/3D-ResNets-PyTorch/tree/CVPR2018
2、【从零开始学视觉Transformer】
本项目地址:https://github.com/justld/3D-ResNets_paddle

一、 网络结构

【论文复现赛】ResNet18_3D - 创想鸟
上图未本文实验使用的不同网络结构,红框部分为本次复现的网络结构(ResNet18_3D),ResNet18结构非常简单,而且巧合的是在本次论文复现赛期间官方推出了【从零开始学视觉Transformer】课程,第一节课朱老师就带着大家写了一个ResNet18(2D CNN),只需要对该模型稍加修改即可得到ResNet18_3D,非常感谢朱老师的激情讲解。

二、实验结果

【论文复现赛】ResNet18_3D - 创想鸟
上表为各个模型在UCF-101和HMDB-51数据集上的准确率,Scratch表示未加载Kinetics权重从头训练,未标明Scratch表示使用Kinetics数据集预训练权重。可以看出,使用Kinetics数据集预训练权重可以显著提高准确率,缓解UCF-101和HMDB-51数据集数据不充分的问题。

三、核心代码

class ConvBNRelu(nn.Layer):    def __init__(self, in_channels, out_channels, kernel_size, **kwargs):        super().__init__()        self.conv = nn.Conv3D(in_channels, out_channels, kernel_size=kernel_size, **kwargs)        self.bn = nn.BatchNorm3D(out_channels)        self.relu = nn.ReLU()    def forward(self, x):        x = self.conv(x)        x = self.bn(x)        x = self.relu(x)        return xclass Block(nn.Layer):    def __init__(self, in_channels, out_channels, stride=1):        super().__init__()        self.block = nn.Sequential(            ConvBNRelu(in_channels, out_channels, 3, stride=stride, padding='same'),            nn.Conv3D(out_channels, out_channels, 3, stride=1, padding='same'),            nn.BatchNorm3D(out_channels),        )        if in_channels != out_channels or stride != 2:            self.downsample = nn.Sequential(                nn.Conv3D(in_channels, out_channels, kernel_size=1, stride=stride),                nn.BatchNorm3D(out_channels),            )        else:            self.downsample = Identity()        self.relu = nn.ReLU()        def forward(self, x):        res = self.downsample(x)        x = self.block(x)        x = self.relu(x + res)        return xclass Identity(nn.Layer):    def __init__(self):        super().__init__()        def forward(self, x):        return x@BACKBONES.register()class ResNet18(nn.Layer):    def __init__(self, in_channels=3, num_seg=8):        super(ResNet18, self).__init__()        self.num_seg = num_seg        self.stem = nn.Sequential(            ConvBNRelu(in_channels, 64, kernel_size=7, stride=(1, 2, 2), padding=(3, 3, 3), bias_attr=False),            nn.MaxPool3D(kernel_size=(3, 3, 3), stride=2, padding=1),        )        self.layer1 = self._make_layer(64, 64, 2, 1)        self.layer2 = self._make_layer(64, 128, 2, 2)        self.layer3 = self._make_layer(128, 256, 2, 2)        self.layer4 = self._make_layer(256, 512, 2, 2)        self.pool = nn.AdaptiveAvgPool3D(1)    def _make_layer(self, in_channels, out_channels, n_blocks, stride=1):        layer_list = []        layer_list.append(Block(in_channels, out_channels, stride))        for i in range(1, n_blocks):            layer_list.append(Block(out_channels, out_channels))        return nn.Sequential(*layer_list)    def forward(self, x):        nt, c, h, w = x.shape        x = x.reshape([-1, self.num_seg, c, h, w]).transpose([0, 2, 1, 3, 4]) # N, C, T, H, W        x = self.stem(x)        x = self.layer1(x)        x = self.layer2(x)        x = self.layer3(x)        x = self.layer4(x) # N, C, T, H, W        x = self.pool(x).reshape([paddle.shape(x)[0], -1]) # N, C        return x

       

上述代码根据【从零开始学视觉Transformer】实战作业ResNet18修改而成,没上课的同学快去看看吧。

四、在线体验

实现ResNet18_3D在UCF-101训练、验证、预测,只需要以下几步:
1、解压数据集
2、处理数据,从视频数据集提取帧,可参考PaddleVideo处理UCF-101数据集的方法
3、安装依赖包
4、训练
5、验证精度
6、模型导出
7、模型预测

In [ ]

# step 1: 解压数据集%cd ~/data/data105621/!unzip -oq UCF101.zip%cd ~/

   In [ ]

# step 2: 下载标注文件,生成list, 这里需要的时间比较长(约半小时),请耐心等待%cd ~/PaddleVideo/data/ucf101/%cp -r /home/aistudio/data/data105621/UCF-101 ~/PaddleVideo/data/ucf101/videos# !bash download_annotations.sh # 此版本已经提供了标注信息,下载有时候网络不给力!python extract_rawframes.py ./videos/ ./rawframes/ --level 2 --ext avi!python build_ucf101_file_list.py rawframes/ --level 2 --format rawframes --out_list_path ./

   In [ ]

# step 3: pip install requirements%cd ~/PaddleVideo/!pip install -r requirements.txt

   In [ ]

# step 4: training%cd /home/aistudio/PaddleVideo/!python3 main.py -c configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml --validate --seed=10001

   In [ ]

# step 5: test%cd /home/aistudio/PaddleVideo/!python3 main.py -c configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml --test -w output/Res18/Res18_best.pdparams

   In [ ]

# step 6: export model!python3.7 tools/export_model.py -c configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml -p output/Res18/Res18_best.pdparams -o inference/Res18_3D

   In [ ]

# step 7: predict,用数据集中的一个数据预测一下,该视频类别为:0%cd /home/aistudio/PaddleVideo/!python3.7 tools/predict.py --config configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml --input_file /home/aistudio/data/data105621/UCF-101/ApplyEyeMakeup/v_ApplyEyeMakeup_g08_c01.avi --model_file inference/Res18_3D/Res18.pdmodel --params_file inference/Res18_3D/Res18.pdiparams --use_gpu=True --use_tensorrt=False

   

五、复现结果

本次复现的目标是UCF-101验证集acc 42.4%,复现的为acc 43.98%。
环境:
Tesla V100 * 1
PaddlePaddle==2.2.0

model dataset acc

ResNet18_3DUCF-10143.98%

以上就是【论文复现赛】ResNet18_3D的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/55183.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 19:35:14
下一篇 2025年11月9日 19:39:40

相关推荐

  • 数组越界访问有什么后果 内存安全问题实例分析

    数组越界访问会导致程序崩溃、未定义行为或安全漏洞,例如在c++/c++中访问超出范围的数组元素可能修改相邻变量、触发段错误或被利用进行缓冲区溢出攻击,如利用gets()函数导致栈溢出,攻击者可覆盖返回地址执行恶意代码,同时堆内存越界会破坏元数据导致free()崩溃或内存泄漏,解决方法包括使用带边界检…

    好文分享 2025年12月18日
    000
  • C++默认参数怎么设置 函数声明规则说明

    C++默认参数必须从右向左设置,以避免调用时的参数匹配歧义。默认值在函数声明或定义中指定,通常推荐在头文件声明中设置,确保一致性。默认参数适用于功能相似、仅参数值不同的场景,而函数重载更适合参数类型或数量差异大的情况。默认参数可为函数指针,实现回调机制的灵活性。但需注意:默认参数在调用时求值,可能引…

    2025年12月18日
    000
  • C++图书管理系统设计 类与对象应用实例

    图书管理系统通过Book、Reader和Library类实现,分别封装图书、读者及借阅行为,体现OOP数据封装与职责分离思想,支持图书增删查借还功能。 在C++中,图书管理系统是一个典型的面向对象编程(OOP)应用实例,能够很好地体现类与对象的设计思想。通过定义合适的类,我们可以对图书、读者、借阅记…

    2025年12月18日
    000
  • C++内存初始化规则 POD类型处理差异

    答案是C++内存初始化规则依赖于存储期、类型和语法。局部非静态变量中,内建和POD类型未初始化为垃圾值,非POD类调用默认构造函数;静态存储期变量无论类型均零初始化;动态分配时new T()对所有类型确保值初始化。POD类型因无构造函数等特性,可安全使用memset和memcpy,适用于C交互、序列…

    2025年12月18日
    000
  • 怎样搭建C++机器人开发环境 ROS框架配置

    答案:搭建C++机器人开发环境需选择Ubuntu LTS并安装对应ROS版本,配置GCC、CMake、IDE(如CLion或VS Code),创建ROS工作区,注意环境变量source和CMake依赖管理,避免常见路径与编译问题,通过模块化、Git、代码风格统一和调试测试实现高效开发。 搭建C++机…

    2025年12月18日
    000
  • C++如何读取整个文件 一次性加载文件内容方法

    答案:C++中一次性读取文件通过seekg和tellg获取大小后用read加载到内存,适合小文件以减少I/O开销,但大文件会占用过多内存,可采用分块读取、内存映射或异步I/O替代,同时需检查文件打开、大小获取、读取字节数等确保安全性。 C++中一次性读取整个文件,通常的做法是利用文件流的 seekg…

    2025年12月18日
    000
  • C++多层异常处理 栈展开过程详解

    C++异常抛出后,运行时系统沿调用栈向上查找匹配catch块,触发栈展开,自动析构已构造的局部对象,确保RAII资源安全释放,析构顺序为后进先出,构造未完成的对象不析构;多层传播中异常跨越函数边界,每层未捕获则继续向外传递,内层catch可处理或重新throw;析构函数应声明noexcept,避免抛…

    2025年12月18日
    000
  • C++匿名结构体应用 临时数据结构处理方案

    匿名结构体适用于局部临时数据聚合,如解析日志时封装时间戳、ID和消息,提升代码简洁性与可读性,但因缺乏可重用性,不适用于需跨函数传递或重复使用的场景。 C++中匿名结构体提供了一种非常简洁的方式来处理那些仅在局部范围内需要、且无需重复定义的临时数据集合。它允许你直接在代码中使用点运算符访问成员,而无…

    2025年12月18日
    000
  • C++函数对象实现 重载operator()示例

    函数对象是重载了operator()的类实例,可像函数一样调用,能携带状态且与标准库算法配合实现行为参数化,相比函数指针更灵活安全,适用于需要状态保持或泛型编程的场景。 C++的函数对象,说白了,就是那些重载了 operator() 的类的实例。它们让一个普通的对象,也能像函数一样被调用。在我看来,…

    2025年12月18日
    000
  • C++移动语义优势 减少不必要拷贝

    移动语义通过右值引用将资源从临时对象转移而非复制,避免深拷贝开销,提升容器操作效率,支持std::move显式转移资源,显著优化C++程序性能。 在C++中,移动语义(Move Semantics)是C++11引入的重要特性之一,它的核心优势在于避免不必要的对象拷贝,从而显著提升程序性能,尤其是在处…

    2025年12月18日
    000
  • C++内存管理最佳实践 资源获取即初始化原则

    RAII原则通过对象生命周期管理资源,确保构造时获取、析构时释放,避免内存泄漏;推荐使用智能指针如std::unique_ptr、std::shared_ptr和自定义RAII类,避免裸new/delete,提升代码安全与可维护性。 在C++中,内存管理是程序稳定性和性能的关键。为了避免内存泄漏、悬…

    2025年12月18日
    000
  • C++模板默认参数 函数与类模板默认值

    C++模板默认参数允许为类型或非类型参数设定预设值,提升代码简洁性与通用性。在函数或类模板中,未显式提供的参数将使用默认值,但必须遵循从右到左依次默认的规则。默认参数仅在编译期生效,作用于类型或常量,与运行时的函数默认参数有本质区别。类模板中使用默认参数需注意声明与定义的一致性、特化时不继承默认值、…

    2025年12月18日
    000
  • C++内联汇编使用 关键路径手动优化

    使用内联汇编优化关键路径需先通过性能分析定位热点,再结合GCC或Clang的asm语法在C++中插入汇编代码,如用SSE指令加速浮点运算,并注意寄存器约束、数据对齐与clobber列表;优先采用编译器intrinsics提高可维护性,仅在确需极致性能时手动优化,且须经基准测试验证效果。 在C++中使…

    2025年12月18日
    000
  • C++命名空间怎么用 避免命名冲突方案

    命名空间通过封装标识符避免命名冲突,解决大型项目或第三方库中的同名问题。使用完全限定名可明确指定作用域,避免冲突;using声明引入特定成员,平衡简洁与安全;using指令虽便捷但易引发冲突,应避免在头文件中使用,以防“污染”全局作用域。匿名命名空间比static更现代,支持类、结构体等,推荐用于文…

    2025年12月18日
    000
  • C++网络编程异常 连接超时处理方案

    答案:C++中推荐使用非阻塞socket结合select或poll实现连接超时,通过设置非阻塞模式并监听写事件,配合超时参数和SO_ERROR检查,可精准控制连接尝试时间,提升程序健壮性;多线程异步方案适用于低并发场景,而避免使用非标准的SO_SNDTIMEO或信号处理机制。 在C++网络编程中,连…

    2025年12月18日
    000
  • C++迷宫游戏开发 二维地图生成与寻路算法

    首先使用DFS递归回溯生成迷宫地图,保证连通性;再通过A*算法实现最短路径寻路,结合g和h值评估节点优先级;最后整合生成与寻路逻辑到主循环,实现角色移动与AI自动寻径,构成迷宫游戏核心框架。 开发一个C++迷宫游戏,核心在于二维地图的生成和角色在迷宫中的寻路逻辑。这两部分直接影响游戏的可玩性和智能性…

    2025年12月18日
    000
  • C++进制转换工具 数值计算与格式化输出

    C++通过iostream和iomanip支持十进制、八进制、十六进制的格式化输出,结合std::bitset实现二进制转换,使用to_base函数可扩展至任意进制,辅以setfill、setw等控制输出格式,灵活处理数值转换与显示。 在C++中实现进制转换和数值的格式化输出,是编程中常见的需求,尤…

    2025年12月18日
    000
  • C++内存泄漏检测 工具与排查方法指南

    C++内存泄漏因手动管理内存且错误隐蔽,需借助工具与规范习惯解决。首选Valgrind、ASan等工具检测,结合RAII、智能指针预防,通过调用栈分析、代码审查与最小化复现定位问题。 C++项目中的内存泄漏,说白了,就是程序申请了内存,但用完之后却忘了释放,导致这些内存一直被占用,直到程序结束或者系…

    2025年12月18日
    000
  • 怎样定义C++变量 声明与初始化语法解析

    定义C++变量需声明类型并可选初始化,基本语法为“数据类型 变量名;”,初始化推荐使用大括号{}以防止窄化转换并确保安全。 如何定义C++变量?简单来说,就是告诉编译器你要存储什么类型的数据,并给这块数据一个名字。这包括了两个核心动作:声明它的数据类型,以及选择性地,在声明时就给它一个初始值。这是编…

    2025年12月18日
    000
  • C++运算符重载规则 成员函数与全局函数

    C++运算符重载需遵循规则,不能重载如.、::等运算符,优先级不变;成员函数用于需访问私有成员或左操作数为类对象的情况,如赋值运算符;全局函数适用于支持隐式转换或左操作数非类对象的情况,如流输出运算符;返回类型应符合语义,算术运算返回新对象,赋值返回引用以支持链式操作。 C++运算符重载允许我们自定…

    2025年12月18日 好文分享
    000

发表回复

登录后才能评论
关注微信