NBSDC信息科学分中心成果在学术会议“The ACM Web Conference 2025”上发表

2025-03-16 16:00 陈雪青

近期,国家基础学科公共科学数据中心(简称“国家基础数据中心”)信息科学分中心研发了AutoDive+多模态在线标注工具,相关成果以《AutoDive+: An Adaptive Model Enhanced Multimodal Online Annotation Tool》(DOI: 10.1145/3701716.3715167)为题在互联网领域顶尖学术会议The ACM Web Conference 2025上发表。论文由国家基础数据中心信息科学分中心团队完成,文中致谢如下:This work is supported by Information Science Database in National Basic Science Data Center under Grant No.NBSDC-DB-25.

随着机器学习模型,尤其是大语言预训练模型的发展,科学研究领域对真实标注数据的需求急剧增加。现有的标注工具存在数据转换成本高、可扩展性有限以及多模态数据标注效率低等问题。针对这些挑战,团队在一站式标注平台AutoDive 基础上,进一步突破多模态及智能化关键技术,研发多模态在线标注工具AutoDive+,它通过主动学习机制和集成自动提取模型来提高数据标注的效率。AutoDive+在PDF文档的直接标注上具有突出优势,并在架构上进行了增强,以支持多模态数据的标注和更高效的标注流程。AutoDive+的整体架构包括项目管理、资源管理、本体管理和统计视图等功能模块。目前AutoDive+已经在多个领域产生了标注数据集,并基于这些数据集开发了多个智能模型,这些模型在不同领域发挥了重要作用。同时为了验证AutoDive+的实用性,研究团队构建了一个材料生物合成领域的多模态数据集,并已完成相应数据集发布和智能模型开发等下游任务。

Autodive+的多模态标注功能界面示例

信息科学分中心主要面向图像识别、自然语言处理、机器识别等前沿信息科学领域,致力于促进信息科学与其他学科间的交叉融合研究,汇聚海量信息数据资源,构建服务于信息学科科研及应用领域的综合性数据库,形成问答系统、语义分割技术、文本分类方法、语言建模工具、视频分析技术、以及命名实体识别应用等特色数据集。

业务对接联系人:李老师, nali@cnic.cn

相关新闻
热点新闻
投票
查看结果
Tags

站点地图 在线访客: 今日访问量: 昨日访问量: 总访问量:

© 2025 中国科学院计算机网络信息中心 版权所有 Powered by UJCMS

京ICP备05002857号-1