科技
-
【特训营第三期】无人机高空红外检测
该项目对2898幅红外热图像进行目标检测,先调整数据集格式,将原test、train、val数据融合后按7:3划分为训练集和验证集,转换为VOC格式。选用PP-YOLOE模型,修改配置文件后训练,评估得mAP为76.60%,未达0.8以上,最后用最佳模型进行了预测。 ☞☞☞AI 智能聊天, 问答助手…
-
AI语言转视频结合AI字幕工具实现完整内容自动化
用ai将语言转成视频并自动添加字幕现在即可实现,关键在于选对工具与流程。1. 使用ai数字人工具如synthesia、pictory、heygen,输入文字或语音即可生成虚拟人物说话的视频;2. 利用descript、otter.ai、happy scribe或剪映等工具自动识别语音并生成字幕文件,…
-
多模态AI如何识别化学式 多模态AI科学公式理解技术
多模态ai识别化学式不只是“看图识字”,还需结合图像、文本、语音等信息理解复杂科学表达。一、难点包括结构复杂、上下文依赖、多格式混杂,仅靠ocr无法解决;二、方法是融合视觉识别与自然语言处理,流程包括图像预处理、ocr+图结构识别、语义解析与校正、输出标准格式;三、应用涵盖自动化文献整理、智能教学工…
-
『NLG学习』(二)教你搭建自己的Transformer
本文围绕Transformer展开,先介绍其相较CNN与RNN的优势,如并行计算、自注意力机制等。接着讲解构建Transformer的五个零件及算法,包括嵌入、位置编码、掩码等。还给出了数据预处理、各组件实现及组装训练的代码,展示了结果,提及进步与不足,指出位置编码处理欠佳。 ☞☞☞AI 智能聊天,…
-
当FAIR1M遇上PaddleDetection 2.0
本文介绍将FAIR1M数据集与PaddleDetection 2.0结合的实践。先处理FAIR1M数据,解压后移除4张测试图,转为COCO格式;再安装PaddleDetection及旋转框算子,选用S2ANet模型,配置相关yml文件后训练,最后用测试图预测。训练有警告,预测角度有偏差,部分bug待…
-
基于Paddle2.0的样式校正卷积网络SRM
本项目复现2019年论文提出的SRM网络,首次用Paddle2.0实现含风格校正的SRM,在10分类动物数据集(按8:2划分)上实验。对比SRM、GE、SE模块及ResNet50,SRM验证准确率0.8736,优于其他,表明风格校正机制提升分类效果。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜…
-
金融图表OCR检测与文本识别
债券文本文档类型丰富,汉字结构复杂识别难度较大,债券文本识别现在正在发展期。借助信息化手段,提高债券文本文档信息处理能力、处理效率、准确率,实现债券文本文档自动识别是解决问题的好方法。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 背景介绍…
-
科大讯飞-学术论文分类挑战赛:ERNIE 准确率0.79
随着人工智能技术不断发展,每周都有非常多的论文公开发布。现如今对论文进行分类逐渐成为非常现实的问题,这也是研究人员和研究机构每天都面临的问题。现在希望选手能构建一个论文分类模型。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 赛事任务 本次…
-
西安交大物理学院研究团队在微型软体机器人磁畴三维编程方面取得进展
对智能软材料柔性基体中具备高矫顽力的永磁颗粒磁畴进行精准编程,是实现微型机器人在磁场驱动下完成复杂三维形变与多模态运动的核心所在。然而,现有的编程策略受限于尺寸效应和工艺瓶颈,普遍存在磁畴编程精度不高、制备效率低下以及一致性差等问题,难以满足微型化及高通量制造的需求,严重阻碍了磁控微型机器人的群体控…
-
通义灵码生成流程图怎么弄
确定流程图的起点和终点需深入理解业务流程,起点如客户提出需求,终点如问题解决;绘制主要步骤和决策节点时,用矩形框表示步骤,菱形框表示决策;选择%ign%ignore_a_1%re_a_1%如visio、lucidchart或draw.io,需考虑易用性和功能;确保准确性和清晰度需反复检查和团队审阅,…