1月6日,科学数据中心软件栈正式发布数据分析软件DataLab v1.0.0,成为软件栈家族的第8名成员,科研机构可在FairMan查看软件版本的更新情况,完成安装部署。
DataLab致力于提供领域可定制的科学数据软件分析框架,集成通用的科学数据处理组件和存算环境的一体化管理与调度,各科学数据中心/科研机构基于DataLab集成领域专业算法,提供领域科学数据构建的专业领域科学数据分析服务平台。面向领域科学家、科研人员提供一站式的安全、便捷的科学数据在线分析服务。
DataLab以最小成本,将数据分析人员在实验中探索的数据分析方法快速发布成步进式向导化的分析工具,为广大科研人员提供数据、计算、用户隔离的交互式分析服务。科研人员选用分析工具,仅需关注数据本身,无需花费精力理解算法和数据处理过程,真正做到低门槛、高效使用,让更多科研人员通过数据分析工具发现数据价值。
另一方面,DataLab作为开箱即用的数据分析平台,具备强大的多源数据资源接入能和计算资源调度能力,可在科学数据中心或科研机构完成私有化部署,为科研人员提供科学研究的可复现性,落实科研诚信要求。
软件特性
功能简介
1.组件管理
组件是分析处理数据的最小逻辑单元,DataLab内置有通用分析组件,涵盖数据读取、数据变换、数据预处理、可视化、统计分析、分类算法、回归算法、聚类算法、关联算法等等,在后续版本持续更多组件供用户选用。
同时DataLab提供自定义组件集成服务,科学数据中心管理员可为算法工程师分配组件管理权限,管理维护组件目录并按照DataLab封装标准可快速添加组件。新组件经历试运行和审核环节,便可面向全体用户选取使用。
1.0.0版本支持集成Python、Java、Go、Shell、Node.js开发的组件,后续版本将不断扩展更多编程语言的支持。
2.数据
DataLab具备大规模多源异构数据接入的能力,在实验、分析和组件试运行环境中支持用户上传本地数据文件、业务数据库和自由选用基于院总中心互操作接口的各种开放数据资源。
数据作为分析的生产要素,共享统一存储,用户维度相互隔离,保障数据安全。同时DataLab支持将数据分享给指定用户,便于用户间数据共享再利用。数据的选取是用户进行分析最常用的操作,DataLab支持将数据直接拖拽放入输入区,操作更加便捷。
3.实验
实验模块是数据分析的“训练场”,数据分析师可在实验过程上传待分析的数据,根据分析目标创建实验步骤并自由选择系统内置的通用组件或定制化算法组件。数据通常会经历格式转换、合并或拆分、加工、分析等多个实验步骤,应用多个组件最终得到分析结果。DataLab将持久化存储实验过程数据,用户查看和下载,也方便选取再次执行中间步骤。
4.分析工具
分析工具作为DataLab的核心功能,面向广大科研人员提供数据、计算、用户隔离的交互式分析服务。数据分析师可将实验探索形成的数据分析过程发布生成分析工具,用于分析同类数据、周期性采集的观测数据。分析工具隐藏了实验过程繁重的处理逻辑和数据转换过程,将复杂的分析过程化简为针对特定数据的可复用的分析流程。科研人员作为数据的持有者,选用适当的工具即可高效地完成数据分析工作。
5.更多管理配置
作为可私有化部署的软件工具,DataLab具备网页配置、第三方应用配置、用户权限管理、计算资源管理、存储资源管理等丰富的管理配置功能,满足领域在页面、用户和功能层面特定的管理需求。
关于科学数据中心软件栈
科学数据中心软件栈(FairStack)是由院科学数据总中心推出的一套可私有化部署、可领域适配的基础软件栈,重点面向科学数据中心在科学数据全生命周期管理中的共性需求,提供科学数据汇聚、管理、分析、共享全流程服务以及安全防护等支撑保障,致力于推进科学数据的FAIR化(可发现Findable、可访问Accessible、可互操作Interoperable、可重用Reusable)。目前科学数据中心软件栈已在20余家研究机构和科学数据中心完成部署和应用,有效提升了科学数据中心的服务能力。