BigFS:面向1+N架构的广域网分布式文件系统

2025-11-11 16:00 科学数据软件社区

国家正加速推进高质量数据集建设步伐。”十五五规划建议”强调 “深化数据资源开发利用”,将数据列为新型生产要素核心。国家发改委等部门在《关于促进数据产业高质量发展的指导意见》指出“开发高质量数据集,大力发展‘数据即服务’、‘知识即服务’、‘模型即服务’等新业态”。国家数据局部署高质量数据集建设先行先试工作,加快高质量数据集建设步伐,促进“人工智能+”行动落地,赋能行业高质量发展。

为破解海量数据跨地域安全存储与高效管理的挑战,科学数据中心软件栈FairStack近日发布面向1+N架构的广域网分布式文件系统—BigFS v0.5版本。

BigFS采用“1+N”分布式架构,通过1个名称节点(NameNode)与N个分布式数据节点(DataNode)协同,将物理上分散的存储资源进行高效整合。名称节点负责智能调度与全局管理,其他各节点承载具体数据,实现广域网环境下“物理分散、逻辑集中”的管理模式。BigFS可以用于科学数据集(语料)的存储管理,为海量科学数据的长期存储与共享提供底层技术支撑。

图1 BigFS“1+N”分布式架构

四大核心优势构筑广域网数据访问新范式

BigFS核心功能包括多副本、故障自迁移、智能路由及熔断机制等,为大规模科学数据在广域网环境下的存储管理与高效访问提供技术支撑,以保证高可靠、高效率、易管理、强安全。

图2 BigFS核心功能视图

01 全局数据目录与文件视图

BigFS提供统一数据目录,用户可浏览系统内的所有数据集,查看包括数据集名称、唯一URI、所属节点、权限等信息,支持数据在线预览与高效检索。

图3 统一数据目录

02 多副本与故障自迁移

BigFS采用多副本(>=3)跨域存储策略,确保每份数据在至少3个不同地域的节点保存。这意味着,即使任意单个节点甚至整个区域发生故障,数据依然安全可用。系统具备故障自迁移能力,当节点故障时,后台会自动将副本迁移至健康节点,保障数据冗余策略要求。

图4 数据副本故障自迁移

03 智能流量路由

BigFS支持智能数据链路选择。系统通过动态计算网络延迟、带宽占用及节点负载,自动选择最优访问路径。此外,BigFS也支持基于特定副本URL直接挂载数据集。

图5 智能流量路由

04 安全可控与熔断保护

BigFS内置安全数据盒子,通过令牌认证+挂载方式实现远程数据集(语料)即插即用,同时提供Python、Java等多语言SDK支持通过流式API方式访问。所有数据操作均被完整日志记录。熔断机制保证一旦访问超限或权限被撤销,系统立即切断访问链路,确保数据流通安全可控。

图6 通过挂载读取

图7 通过SDK读取

图8 熔断机制

此外,BigFS面向管理员提供全局可视化监控仪表盘,支持存储节点在线状态、资源负载等关键指标的实时监控,实现运行状态的直观展示与故障快速定位。

图9 全局可视化监控仪表盘

展望未来,BigFS将持续深度迭代,致力于为大模型训练构建提供坚实可靠的数据基础设施,打造面向未来AI时代的分布式数据存储基石。

关于软件栈

科学数据中心软件栈(FairStack)是由中国科学院科学数据总中心推出的一套自主可控、领域可适配、可信、可协作、FAIR化的基础软件栈,重点面向科学数据中心在科学数据全生命周期管理中的共性需求,提供科学数据汇聚、管理、分析、共享全流程服务以及安全防护等支撑保障,致力于推进科学数据的FAIR化(可发现Findable、可访问Accessible、可互操作Interoperable、可重用Reusable)。目前科学数据中心软件栈已在70余家研究机构和科学数据中心完成部署和应用,有效提升了科学数据中心的服务能力。更多详情访问科学数据中心软件栈官网 https://fairstack.cn/

相关新闻
热点新闻
投票
查看结果
Tags

站点地图 在线访客: 今日访问量: 昨日访问量: 总访问量:

© 2026 中国科学院计算机网络信息中心 版权所有 Powered by UJCMS

京ICP备05002857号-1