准备图像AI项目数据集的七个步骤

译者 | 陈峻

重楼 | 审校

不知你是否注意到,数据集可能是机器学习项目中最容易被忽视的部分。在大多数人看来,数据集不过是一些快速拼凑、或已下载的预制图像的集合。而实际上,数据集是任何基于图像的人工智能ai)项目的基石。对于任何旨在实现高准确性的机器学习项目来说,创建和管理一个平衡且结构合理的数据集,都是至关重要的。

不过,创建一个数据集并不像收集几百张图片那么简单。我们在尝试启动某个AI项目时,很可能会遇到各种隐患。下面,我将和您讨论可用来创建自己的数据集的七个典型步骤,以便您深入了解数据集大小的重要性、可能出现的数据遗漏、以及将数据集转化为数据库等要素。

注意:这些步骤将主要适用于,那些针对包含了图像数据集的对象检测和分类项目。而诸如 NLP 或图形项目等其他项目类型,则需要采用不同的方法。

步骤 1:图像大小

通常情况下,神经网络只能处理特定尺寸的图像,超过阈值的图像会被强制缩小。这意味着在使用数据集之前,我们需要选择适合的神经网络,并相应地调整图像的尺寸

正如您所知,如果将图像尺寸缩小,可能会导致精确度大幅下降,甚至使图像上的小物体消失,从而对整个识别过程造成损害。如下所示,您需要在监控摄像头所拍摄的图像中检测出车牌号码,而车牌只占整个图像的一小部分。因此,当神经网络对图像进行缩小处理时,车牌号码可能会变得非常小,无法被识别到

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

准备图像AI项目数据集的七个步骤

如下图所示,如果能够了解网络可使用的图像尺寸,将有助于您裁剪出适当的数据集图像。

准备图像AI项目数据集的七个步骤

虽然大多数神经网络可处理的图像尺寸都比较小,但是诸如 Yolo v5x6之类的最新神经网络,则能够处理更大分辨率的图像。例如,Yolo v5xs6就能够处理宽达 1280 像素的图像。

步骤 2:了解您的环境

为了确保数据集能够准确反映神经网络在运行过程中所需识别的真实图像,我们在收集数据集时需要注意以下因素:

摄像头的类型,是智能手机摄像头,还是安全摄像头图像的大小摄像头的位置,是在室内,还是室外天气条件,如光照、雨、雾、雪等。

在清楚了解了神经网络待处理的真实图像后,我们就能够创建一个数据集,来准确地反映那些感兴趣的对象、及其所处的环境。

收集谷歌上的普通图片可能被认为是组建大型数据集最简单、最快捷的方法。然而,这种方法实际上很难达到较高的精确度要求。如下图所示,与真实相机拍摄的图像相比,谷歌或照片数据库中的图像通常经过“美颜”处理

准备图像AI项目数据集的七个步骤

而一个过于“漂亮”的数据集,很可能会导致较高的测试准确率。这意味着,神经网络将仅能在测试数据(从数据集中提纯过的图像集合)上良好运行,但在真实条件下运行不佳,并导致准确率低下。

步骤 3:格式和注释

我们需要注意的另一个重要方面是:图片的格式。在开始项目之前,请检查您选择的框架能够支持哪些格式,而您的图片是否能够符合此类要求。虽然当前的框架已能够支持多种图片格式,但是对于 .jfif等格式仍存在问题。

注释数据可以被用来详细地说明边界框、文件名、以及可以采用的不同结构。通常,不同的神经网络和框架,需要不同的注释方法。有些需要包含边界框位置的绝对坐标,有些则需要相对坐标;有些要求每幅图像都附带有一个单独的、包含了注释的.txt 文件,而另一些仅需要一个包含了所有注释的文件。可见,即使您的数据集拥有良好的图像,如果您的框架无法处理注释的话,也将无济于事。

步骤 4:训练和验证子集

为了训练的目的,通常将数据集分为两个子集:

训练子集- 它是一组图像。神经网络将会在这组图像上进行训练。其占比为图像总数的 70% 至 80%。验证子集- 是用于检查神经网络在训练过程中学习效果的较小图像集。其占比为图像总数的 20% 到 30% 之间。

准备图像AI项目数据集的七个步骤

通常,神经网络会使用从训练子集中提取到的物体特征,来“学习”物体的外观。也就是说,在一个训练周期结束(历时,epoch)后,神经网络会查看验证子集的数据,并尝试猜测它能够 “看 ”到那些物体。无论是正确的、还是错误的猜测,其结构都能够让神经网络进一步去深入学习。

虽然这种方法已被广泛使用,并被证明能够取得良好的效果,但我们更倾向于采用一种不同的方法,将数据集划分为如下子集:

训练子集 – 占图像总数的 70%验证子集 – 占图像总数的 20%测试数据集 – 约占图像总数的10%

准备图像AI项目数据集的七个步骤

由于测试子集包含了神经网络从未见过的数据集中的图像,因此开发人员可以通过该子集来测试模型,以了解其手动运行的效果,以及在处理哪些图像时会遇到困难。换句话说,该子集将有助于在项目启动前,找出神经网络可能犯错的地方,进而避免在项目启动之后,进行过多的重新训练

Imagine By Magic Studio Imagine By Magic Studio

AI图片生成器,用文字制作图片

Imagine By Magic Studio 79 查看详情 Imagine By Magic Studio

步骤 5:数据遗漏

如果您用来训练机器学习算法的数据中,恰好包含了您试图预测的信息,那么就可能发生数据泄露。如下图所示,从图像识别的角度来看,当训练子集和验证子集中的同一对象的照片非常相似时,就会发生数据泄露。显然,数据遗漏对于神经网络的质量来说是极为不利的。

准备图像AI项目数据集的七个步骤

从本质上说,模型在训练数据集中看到了一幅图像后,会先提取其特征,然后进入验证数据集,进而发现看到的完全相同(或非常相似)的图像。因此,与其说模型在真实学习,不如说它只是在记忆各种信息。有时,这会导致验证数据集上的准确率,高得离谱(例如,可高达 98%),但是在生产实际中的准确率却非常低。

目前最常用的一种数据集分割方法是:将数据随机打乱,然后选取前 70% 的图像放入训练子集,剩下的 30% 则放入验证子集。这种方法就容易导致数据遗漏的产生。如下图所示,我们的当务之急是从数据集中删除所有“重复”的照片,并检查两个子集中是否存在相似的照片。

准备图像AI项目数据集的七个步骤

对此,我们可以使用简单的脚本来自动执行重复删除。当然,您可以调整重复阈值,比如:只删除完全重复的图片、或相似度高达到 90% 的图片等。总的说来,只要删除的重复内容越多,神经网络的生产精度就会越高。

步骤 6:大型数据集数据库

如果您的数据集相当大,例如:超过 10万 幅图像、以及具有几十个对象类与子类的话,我们建议您创建一个简单的数据库,来存储数据集信息。这背后的原因其实非常简单:对于大型数据集而言,我们很难跟踪所有的数据。因此,如果不对数据进行某种结构化的处理,我们将无法对其进行准确分析。

通过数据库,您可以快速地诊断数据集,进而发现诸如:特定类别的图片数量过少,会导致神经网络难以识别出对象;类别之间的图片分布不够均匀;特定类别中的谷歌图片数量过多,导致该类别的准确率得分过低等情况。

通过简单的数据库,我们可以包含如下信息:

文件名文件路径注释数据类数据数据源(源自生产环境、还是谷歌等)对象类型、名称等对象相关信息

数据库是收集数据集、统计数据不可或缺的工具。它能够帮助我们快速、轻松地查看数据集的平衡程度,以及每个类别中高质量图像的数量(从神经网络的角度来看)。通过类似下面直观呈现的数据,我们可以更快地进行分析,并将其与识别结果进行比较,从而找出准确率低下的根本原因

准备图像AI项目数据集的七个步骤

需要重新写作的内容是:一个值得注意的问题是,准确率低的原因可能是因为图片数量较少或某一类别中谷歌照片的比例较高。通过创建这样的数据库,可以大大减少生产、测试和模型再训练的时间

步骤 7:数据集增强

作为一种用于增加图像数量的技术,数据增强是对数据进行简单或复杂转换的过程,例如通过翻转或样式转化,我们可以提高数据的有效性。而据此获得的有效数据集,则无需经历过多的训练。如下图所示,此类数据转换既可以是简单到仅将图像旋转 90 度,也可以复杂到在图像中添加太阳耀斑、以模仿背光照片或镜头耀斑。

准备图像AI项目数据集的七个步骤

通常,此类增强转化都是自动执行的。例如,我们可以准备一个专门用于数据增强的 Python 库。目前,数据增强有两种类型:

训练前增强- 在训练过程开始之前,对数据进行扩增,并将其添加到训练子集中。当然,只有在数据集被划分为训练子集和验证子集之后,我们才能进行此类增加,以避免出现前文提到的数据遗漏。训练内增强- 采用类似 PyTorch的框架内置图像变换技术。

值得注意的是,将数据集的大小增加十倍,并不会使得神经网络的效率提高十倍。事实上,这反而可能会使网络的性能比以前更差。因此,我们应当只使用与生产环境相关的增强功能。例如,对于被安装在建筑物内的摄像机,在其正常运行的情况下,是不会出现雨淋的。因此我们完全没有必要在图像中添加针对“雨景”的增强。

小结

尽管对于那些希望将AI应用到业务中的人们来说,数据集是最不令人兴奋的部分。但不可否认的是,数据集是任何图像识别项目中的重要部分。而且在大多数图像识别项目中,数据集的管理和整理,往往会花费团队大量的时间。最后,让我们小结一下,该如何通过恰当地处置数据集,以便从AI项目中获得最佳结果:

裁剪或调整图像的大小,以满足神经网络的要求根据天气和照明条件,采集真实图像根据神经网络的要求,构建注释避免使用所有的图像来训练网络。而需留一部分用于测试删除验证数据集中的重复图像,以避免数据遗漏创建数据库,以快速诊断数据集尽量少用数据增强,来增加图像数量

译者介绍

陈峻(Julian Chen),51CTO社区编辑,具有十多年的IT项目实施经验,善于对内外部资源与风险实施管控,专注传播网络与信息安全知识与经验。

原文标题:7 Steps To Prepare A Dataset For An Image-Based AI Project,作者:Oleg Kokorin

以上就是准备图像AI项目数据集的七个步骤的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/815559.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
工时管理App开发适应未来工作模式的必备工具
上一篇 2025年11月27日 00:50:49
js中tolowercase的用法
下一篇 2025年11月27日 00:50:52

相关推荐

  • composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

    require用于声明项目运行必需的依赖,如框架、数据库组件和第三方SDK,这些包会随项目部署到生产环境;2. require-dev用于声明仅在开发和测试阶段需要的工具,如PHPUnit、PHPStan、Faker等,不会默认部署到生产环境;3. 安装时composer install根据环境决定…

    2026年5月10日
    1000
  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    100
  • Debian syslog性能优化技巧有哪些

    提升Debian系统syslog (通常基于rsyslog)性能,关键在于精简配置和高效处理日志。以下策略能有效优化日志管理,提升系统整体性能: 精简配置,高效加载: 在rsyslog配置文件中,仅加载必要的输入、输出和解析模块。 使用全局指令设置日志级别和格式,避免不必要的处理。 自定义模板: 创…

    2026年5月10日
    000
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

    SFINAE 是“替换失败不是错误”的原则,指模板实例化时若参数替换导致错误,只要存在其他合法候选,编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景,如通过 decltype 或 enable_if 控制函数重载,实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

    2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 《魔兽世界》将于6月11日开启国服回归技术测试

    《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试

    《%ign%ignore_a_1%re_a_1%》官方宣布,将于6月11日开启国服回归技术测试,时间为7天,并称可以在6月内正式开服,玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端,技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情 以上就是《…

    2026年5月10日 用户投稿
    200
  • 如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

    HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…

    2026年5月10日
    100
  • 网站标题关键词更新后,搜索引擎为何仍显示旧标题?

    网站标题更新后,搜索引擎为何显示旧标题? 网站SEO优化中,站长常修改网站标题关键词,期望搜索结果显示自定义标题。然而,即使更新标签、meta keywords、meta description和结构化数据中的name属性后,搜索结果仍显示旧标题,这令人费解。本文将对此进行解释。 问题:站长修改了网…

    2026年5月10日
    100
  • 创建指定大小并填充特定数据的Golang文件教程

    本文将介绍如何使用Golang创建一个指定大小的文件,并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件,从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件,并将其填充为全零数据。掌握这些方法,可以方便地在例如日志系统或磁盘队列等场景中,预先创建测试文件或初始…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • 使用 WebCodecs VideoDecoder 实现精确逐帧回退

    本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时,实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳,可以避免渲染中间帧,从而提高用户体验。本文将提供详细的解决方案和示例代码,帮助开发者实现精确的视频帧控制。 在使用 WebCodecs VideoDecod…

    2026年5月10日
    000
  • 如何插入查询结果数据_SQL插入Select查询结果方法

    如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法

    使用INSERT INTO…SELECT语句可高效插入数据,通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复;表结构不一致时可通过别名、类型转换、默认值或计算字段处理;结合存储过程可提升可维护性,支持参数化与动态SQL。 将查询结果数据插入到另一个表中,可以…

    2026年5月10日 用户投稿
    000
  • Discord.py 交互按钮超时与持久化解决方案

    本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图(View)的超时机制,并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案,确保您的机器人交互功能稳定可靠,即…

    2026年5月10日
    000
  • Debian Copilot的社区活跃度如何

    debian copilot是codeberg社区维护的ai助手,旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据,但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况: Debian拥有详尽的…

    2026年5月10日
    000
  • python中zip函数详解 python多序列压缩zip函数应用场景

    zip函数的应用场景包括:1) 同时遍历多个序列,2) 合并多个列表的数据,3) 数据分析和科学计算中的元素运算,4) 处理csv文件,5) 性能优化。zip函数是一个强大的工具,能够简化代码并提高处理多个序列时的效率。 在Python中,zip函数是一个非常有用的工具,它能够将多个可迭代对象打包成…

    2026年5月10日
    000
  • JavaScript 动态菜单点击高亮效果实现教程

    本教程详细介绍了如何使用 JavaScript 实现动态菜单的点击高亮功能。通过事件委托和状态管理,当用户点击菜单项时,被点击项会高亮显示(绿色),同时其他菜单项恢复默认样式(白色)。这种方法避免了不必要的DOM操作,提高了性能和代码可维护性,确保了无论点击方向如何,功能都能稳定运行。 动态菜单高亮…

    2026年5月10日
    200

发表回复

登录后才能评论
关注微信