导盲赛道思路分享

程序猿 • 2025年11月9日 00:12:14 • 科技 • 阅读 1

本文围绕智能导盲机器狗比赛展开，介绍赛事对模型大小和检测速度的要求，分享三种模型选择思路：小模型加法、大模型减法及先减重再提速。还分析了数据集分布，细讲第三种思路中Backbone和Neck的处理，如用CSP结构减重、SPPF替代SPP提速等。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一、赛题简介：

一只导盲犬能够给盲人带来许多生活上的便利，但是导盲犬的培训周期长，费用高昂，因此，不是所有盲人能够拥有导盲犬，如果有机器狗代替导盲犬，将极大的造福盲人，此项比赛为智能导盲机器狗比赛，通过比赛来考评智能导盲机器狗的智能感知能力及综合运动性能，要求智能四足仿生机器人沿布置好的城市人行道场景走完全程并完成指定任务。

其实说起来高大上，当我们一句看到具体的任务的时候就会发现，其实就是一个非常简单的目标检测任务在出塞中，赛事组提供五种不同的目标让你去进行识别，但是为了服务于现实场景，其在模型大小以及检测速度等方面均提出了要求模型大小限制在200兆以内检测速度要求不低于20FPS。

二、思路分享：

那么这里，当时我就想到了三个思路，

一个的话，自然就是使用像是以mobilenet等为backbone的这种小模型这种小模型它的好处自然就是不用考虑文件大小，同时你的Baseline的速度也会很快，像是有的模型，他可能只有几十兆然后他的IP还是可以飙到200甚至300以上，那么这个时候我就有很大的空间去，提升我的网络大小以及我的分辨率大小，那么这个其实就是一种加法。比如我可以在这之上去增加一些网络结构。例如通常的目标检测网络，他会在NECK当中增加一个结构叫做S P P。但是通常的网络中只会有一个这样的结构，但是由于你的网络十分小，同时FSP还是非常大，那么你就有很大的空间，你可以再增加两个S P P结构这样你也完全不用担心你会触碰到赛事组设置的一些红线另外一种就是选择一个比较大的模型，他可能是两百多兆并且速度在20FPS上下，那么这个时候，你就可以先训练出来一个不错的模型，然后再使用像是裁剪以及蒸馏这些外部措施，在不改变网络结构的情况下，达到减重，增速的目的。但是，这种情况往往会带来一定的性能损失，通常情况下其可能在增速一辈，降低50%的参数量的情况下，可能会减少1%的性能。那么这时你就要确保在你训练过程中你的原网络的成绩要比其他人的成绩要高出一截这样啊，当你网络在经过裁剪后你的模型大小，以及检测速度在与他人相同的情况下，才能确保你的网络精度不弱于他人，怎么这个其实就是一个单纯地减法。最后一种是我比较推崇的，那么就是仍然找一个比较大的网络，然后先给你的网络进行一个减重，像是PPYOLOv2 Backbone为ResNet-50_DCN的这种，他的检测速度差不多是满足要求，但是他的网络大小超过了200兆，那么这个时候，我们就可以考虑给他的Backbone进行一个减重比如我们可以将CSP结构应用于PPYOLO的bakcbone当中，这样就可以满足模型大小，限制在200兆以内，当网络大小确定后，接下来我们就可以考虑提速的事情了。首先我们最直接的方法就是将网络的输入分辨率降低，比如320×320，那么这样就两者都可满足了。

三、数据查看：

在我的初中和高中的生物课堂中，生物老师往往告诉我一个事情就是，一个好的实验材料往往能够在实验中起到关键性作用。无数足矣载入史册的实验中，首先是需要一个好的实验材料。那么在机器学习以及深度学习中，好的数据及往往是一个数据分布均匀，种类繁多，能够反映真实情况的数据。那么首先就先让我们来看一看，到忙的这个数据是否是一个比较好的数据集。

In [ ]

## 解压文件夹!tar -zxvf data/data137625/WisdomGuide.tar.gz## 安装所需环境!pip install pycocotools

In [ ]

from pycocotools.coco import COCO# 查看train数据分布annFile='WisdomGuide/annotations/instance_train.json'coco=COCO(annFile)training_data= {}cats = coco.loadCats(coco.getCatIds()) cat_nms=[cat['name'] for cat in cats] print('-'*10,"training data",'-'*10)for cat_name in cat_nms:    catId = coco.getCatIds(catNms=[cat_name])    imgId = coco.getImgIds(catIds=catId)    annId = coco.getAnnIds(imgIds=imgId, catIds=catId, iscrowd=None)    training_data[cat_name] = len(imgId), len(annId)    print("{:<15} {:<6d}     {:<10d}".format(cat_name, len(imgId), len(annId)))print(training_data)# 查看val数据分布annFile='WisdomGuide/annotations/instance_val.json'coco=COCO(annFile)cats = coco.loadCats(coco.getCatIds()) val_data = {}cat_nms=[cat['name'] for cat in cats] print('-'*10,"valuation data",'-'*10)for cat_name in cat_nms:    catId = coco.getCatIds(catNms=[cat_name])    imgId = coco.getImgIds(catIds=catId)    annId = coco.getAnnIds(imgIds=imgId, catIds=catId, iscrowd=None)    val_data[cat_name] = (len(imgId), len(annId))                print("{:<15} {:<6d}     {:<10d}".format(cat_name, len(imgId), len(annId)))

你是否觉得不够直观那么接下来我们用饼状图的形式来进行演示。

In [ ]

import matplotlib.pyplot as pltname = [x for x in training_data.keys()]train_imgid = [training_data[name[x]][0] for x in range(len(name))]train_annid = [training_data[name[x]][1] for x in range(len(name))]val_imgid = [val_data[name[x]][0] for x in range(len(name))]val_annid = [val_data[name[x]][1] for x in range(len(name))]plt.figure(figsize=(6,6))#将画布设定为正方形，则绘制的饼图是正圆values = train_imgidlabel = nameexplode = [0.01,0.01,0.01,0.01,0.01]patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')plt.suptitle('train_imgid',fontsize=16,y=0.93)plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)plt.show()plt.figure(figsize=(6,6))values = train_annidlabel = nameexplode = [0.01,0.01,0.01,0.01,0.01]patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')plt.suptitle('train_annid',fontsize=16,y=0.93)plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)plt.show()plt.figure(figsize=(6,6))values = val_imgidlabel = nameexplode = [0.01,0.01,0.01,0.01,0.01]patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')plt.suptitle('val_imgid',fontsize=16,y=0.93)plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)plt.show()plt.figure(figsize=(6,6))values = val_annidlabel = nameexplode = [0.01,0.01,0.01,0.01,0.01]patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')plt.suptitle('val_annid',fontsize=16,y=0.93)plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)plt.show()

通过饼状图，我们可以发现这是一个不均匀分布的数据集

数据集总共分为五类：盲道、红绿灯（红灯状态）、红绿灯（绿灯状态）、红绿灯（不亮灯状态）、障碍物

其实是有三个大分类——盲道，红绿灯以及障碍物，其中红绿灯又能被细分为三类分别为红灯，绿灯以及不亮灯。所幸他所需要识别的物体，其实算是比较少的。如果像是这种数据的话，其实还有另外一种说法是密度分类或者叫做多类别分类识别，比如你首先要识别出来，他是哪种动物像是猫或狗或蛇，然后你又要去细分它的种类，比如比格拉布拉多dou牛，或是暹罗，埃及，、加菲。。当然，那两种识别又是一个更高的领域。在这里，我们并不进行描述。

个人觉得这个数据其实已经是非常不错的，首先他是一个扫盲说自己吗，所以说他大部分的时间肯定是需要去看盲道，所以他的忙到我的数据只能够占55%左右，剩下的红绿灯和障碍物大概五五分成，就是有一点我不太明白，为什么没有灯的占了其中的一半，有灯的占了另一半呢，难道现在大街上的红绿灯大多数都是没有灯吗？

四、思路细讲：

思路一你可以去找一个不错的网络像是Picodet然后再去找一些trick一点点加只要模型不超过200兆,速度不低于20fps，你就可以无限的去增加trick提升网络精度。但是有一个问题就是像是Picodet 它就是由一群trick叠加而成，那么你去找什么trick在一个原本就很好的网络上去提升精度呢呢?思路二建议你去找一个速度比较快的单阶段检测模型，因为如果是双阶段检测模型，可能经过裁剪之后你的模型大小达标但是你的速度可能还是无法达标。思路三第三种是我在做的方向下面我就跟大家来说说我我认为的思路三应该怎么做。

Backbone

在考虑是否对Backbone进行动刀前你应该先考虑清楚你是否有足够的机器或者算力，因为你一旦选择对Backbone动刀就意味着你将失去一个预训练模型，你必须要自己再在Imagenet上去训练一个不错的预训练模型，请注意一定是要不错的预训练模型，因为如果你的预训练模型较差那么你的网络很有可能无法收敛更不要提所谓的达到一个不错的精度了。

如果是像是PPYOLOv2一样没有使用过CSP结构的网络可以直接将CSP结构拿过来使用，CSP结构能够降低网络参数量，在减重的同时还能达到提速的效果，至于精度，论文中说的是能提升精度的哈。要是不能提升我这里也不负责呀，一切情况以实物为准

如果是PPYOLOE就比较尴尬了，因为在PPYOLOE中虽然使用了CSP结构，但是很尴尬的是PPYOLOE也和咱们的思路一样就是先减重然后再增重，结果就是虽然使用了CSP结构但是模型大小反而也没怎么减少但是精度提高了，那么这就比较尴尬了，那么这个时候我们应该怎么找一个比PPYOLOE中 CSPRegResNet精度还高速度更快或者最起码差不多，然后参数还要少的Backbone呢？所以这里其实就是一个比较尴尬的点了。如果看过我那个给大核卷积提速项目的同学可能知道我是使用CSPConvNeXt平替，但是尴尬的是我的CSPConvNeXt在Iamgenet中也只有78.5，不说和ConvNeXt的82.1相差甚远甚至连CSPRegResNet的79.5也有一个点的差距，然后CSPCOnvNeXt网络还有一个问题就是难以训练，具体来说可以去看一下我的那个给大核卷积提速的项目，简单一句话来说，就是我并没有找到一个合适的训练策略，去激发CSPResNet的所有潜能，但是一方面我自己没有机器然后ai studio 4卡训练一直报错提了issue也没有解决。因此这方面我也暂时搁置了。

Neck

对neck动刀就不会像是Backbone那么难受了你可以随意去改变那么第一个我想到的就是SPPF去替代SPP

SPPF 与 SPP

简单介绍一下SPPF SPPF就是使用三个5×5的maxpool层代替原本的SPP结构，SPPF结构与SPP结构结果相同但是所用时间大大减少

下面我们先做一个小实验，来对比SPPF与SPP的所用时间

In [35]

import paddle import paddle.nn as nnimport timepaddle.device.set_device("cpu")class SPP(nn.Layer):    def __init__(self):        super().__init__()        self.maxpool1 = nn.MaxPool2D(5,1,padding=2)        self.maxpool2 = nn.MaxPool2D(9,1,padding=4)        self.maxpool3 = nn.MaxPool2D(13,1,padding=6)    def forward(self, x):        p = x        o1 = self.maxpool1(x)        o2 = self.maxpool2(x)        o3 = self.maxpool3(x)        return paddle.concat([x,o1,o2,o3],axis=1)class SPPF(nn.Layer):    def __init__(self):        super().__init__()        self.maxpool = nn.MaxPool2D(5, 1, padding=2)    def forward(self, x):        o1 = self.maxpool(x)        o2 = self.maxpool(o1)        o3 = self.maxpool(o2)        return paddle.concat([x, o1, o2, o3], axis=1)def main():    input_tensor = paddle.rand((8, 32, 16, 16))    spp = SPP()    sppf = SPPF()    output1 = spp(input_tensor)    output2 = sppf(input_tensor)    # print(paddle.equal(output1, output2))    t_start = time.time()    for _ in range(100):        spp(input_tensor)    print(f"spp time: {time.time() - t_start}")    t_start = time.time()    for _ in range(100):        sppf(input_tensor)    print(f"sppf time: {time.time() - t_start}")if __name__ == '__main__':    main()

spp time: 1.2195651531219482sppf time: 0.43102502822875977

可以看到SPPF所用时间几乎是SPP结构的三分之一，那么我们就可以将一个SPP结构平替称为三个SPPF结构，相当于用一个SPP结构的时间，达到了使用三个SPP才能达到的效果。

以上就是导盲赛道思路分享的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/51746.html

ai coco fig igs udio 为什么

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

国产AI大模型“明显提高工作效率”

上一篇 2025年11月9日 00:07:34

Adobe旗下AI图片编辑工具Express上线

下一篇 2025年11月9日 00:12:22

好文分享

CSS mask属性无法获取图片：为什么我的图片不见了？

CSS mask属性无法获取图片在使用CSS mask属性时，可能会遇到无法获取指定照片的情况。这个问题通常表现为：网络面板中没有请求图片：尽管CSS代码中指定了图片地址，但网络面板中却找不到图片的请求记录。问题原因：此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

程序猿
2025年12月24日
9000
好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

网页使用本地字体：为什么 CSS 代码中明明指定了“荆南麦圆体”，页面却仍然显示“微软雅黑”？

网页中使用本地字体本文将解答如何将本地安装字体应用到网页中，避免使用 src 属性直接引入字体文件。问题：想要在网页上使用已安装的“荆南麦圆体”字体，但 css 代码中将其置于第一位的“font-family”属性，页面仍显示“微软雅黑”字体。立即学习“前端免费学习笔记（深入）”；答案： …

程序猿
2025年12月24日
0000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么我的特定 DIV 在 Edge 浏览器中无法显示？

特定 DIV 无法显示：用户代理样式表的困扰当你在 Edge 浏览器中打开项目中的某个 div 时，却发现它无法正常显示，仔细检查样式后，发现是由用户代理样式表中的 display none 引起的。但你疑问的是，为什么会出现这样的样式表，而且只针对特定的 div？背后的原因用户代理样式表是由…

程序猿
2025年12月24日
2000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
0000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

为什么我的 CSS 元素放大效果无法正常生效？

css 设置元素放大效果的疑问解答原提问者在尝试给元素添加 10em 字体大小和过渡效果后，未能在进入页面时看到放大效果。探究发现，原提问者将 CSS 代码直接写在页面中，导致放大效果无法触发。解决办法如下：将 CSS 样式写在一个单独的文件中，并使用标签引入该样式文件。这个操作与原提问者观…

程序猿
2025年12月24日
0000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 em 和 transition 设置后元素没有放大？

元素设置 em 和 transition 后不放大一个 youtube 视频中展示了设置 em 和 transition 的元素在页面加载后会放大，但同样的代码在提问者电脑上没有达到预期效果。可能原因：问题在于 css 代码的位置。在视频中，css 被放置在单独的文件中并通过 link 标签引…

程序猿
2025年12月24日
1000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
0000