国家基础学科公共科学数据中心“图像理解机器学习数据库”在期刊《Crop Protection》发表论文

2025-01-09 16:00 袁媛

近日,国家基础学科公共科学数据中心“图像理解机器学习数据库”助力图文多模态数据融合研究取得重要成果。相关研究成果已通过论文《Few-shot agricultural pest recognition based on multimodal masked autoencoder》为题发表于农林科学领域国际期刊《Crop Protection》,其纸质版将于2025年1月发表。论文由中国科学院合肥物质科学研究院智能认知研究组团队完成。文中致谢如下:This work was supported by “Image Caption Machine Learning Dataset” in National Basic Science Data Center (NO. NBSDC-DB-20)。

农业害虫识别面临着小样本问题、类别不平衡、外观相似性、害虫目标小的挑战。现有基于深度学习的害虫识别方法通常只利用了图像的单模态数据,导致模型的识别性能严重依赖于训练数据集的规模和标注质量。研究团队基于现有的“图像理解机器学习数据库”提出了一种基于多模态掩码自编码器的小样本图文多模态害虫识别模型MMAE(multimodal masked autoencoder)。该模型包括一个图像编码器和一个文本编码器,其中,图像编码器使用MAE模型,文本编码器使用ALBERT模型,编码器输出的图像-文本多模态特征通过早期融合的方式进行融合。该模型有两个优势:首先,MMAE的掩码自编码器集成了自监督学习,能够适用于小样本数据集,提高识别精度;其次,MMAE在图像模态的基础上嵌入了文本模态信息,利用两种模态信息之间的相关性和互补性,提高害虫识别的性能。

另外,在此项工作中,研究团队构建了作物害虫图文多模态数据集,为农业领域病虫害多模态数据融合研究提供数据支持。

图1 图像-文本数据对示例

图2 图文融合模型图

相关新闻
热点新闻
投票
查看结果
Tags

站点地图 在线访客: 今日访问量: 昨日访问量: 总访问量:

© 2025 中国科学院计算机网络信息中心 版权所有 Powered by UJCMS

京ICP备05002857号-1