元数据标准是由科学数据中心的数据管理员规范化制定,其制定过程遵循统一的格式,旨在明确针对不同类型数据在对外开放共享时的元数据内容要求。
不同的科学数据中心,基于自身的业务特点、数据类型以及用户需求,可能会有不同的元数据标准。同时InstDB中的所有数据也都是按照元数据标准模板来自动适配展示元数据信息。
1.元数据模板概述
InstDB的元数据模板由XML格式文件组成,每个XML元素代表了数据的具体含义。模板的核心目的是为了规范和管理数据集中的元数据,确保数据的准确性和一致性。模板由模板描述信息和数据元素描述两个核心部分组成,这些部分在XML文件中以特定的标签形式呈现。
模板组成格式:
<beans>
<!--模板描述信息在这里定义 -->
<property name="name" value="模板名称"/>
<property name="desc" value="模板描述"/>
<property name="version" value="模板版本号"/>
<property name="author" value="模板创建者"/>
<property name="root">
<!--数据元素分类 -->
<group value="基本信息" desc="请填写XXX基本信息">
<list>
<!--元素定义 -->
<bean>
<property name="title" value="名称"/>
<property name="type" value="text"/>
<property name="multiply" value="1:1"/>
<property name="iri" value="https://schema.org/name"/>
<property name="placeholder" value="请输入名称"/>
</bean>
...
</list>
</group>
<group value="XXX" desc="请填写XXX">
<list>
<bean>
<property name="title" value="XXX"/>
...
</bean>
</list>
</group>
</property>
</beans>
具体模板格式示例如下:
2.元数据模板的配置参数
InstDB的元数据模板支持多种类型的配置,以满足不同数据集和元数据管理的需求。这些配置类型主要包括:
- 文本类型:如文本框(text)、多文本框(textarea),用于输入文本信息。
- 日期类型:日期(年月日)类型,用于输入具体的日期信息。
- 图片类型:图片类型(image),用于上传元数据关联的封面图。
- 选择类型:包括单选框(radio)、下拉框(select)、可多选的下拉框(selectMany),用于提供预定义的选项供用户选择。
- 特定类型:如作者类型(author)、项目类型(project)、机构类型(org)、论文类型(paper)等,用于特定领域或应用场景的元数据配置。
- 标识类型:DOI、CSTR两类资源标识、(许可协议)license、学科类型(subject),用于注册资源标识和选择通用枚举值。
此外,模板还支持一些高级配置,如支持多个tab的文本框(textTabMany)、支持多个可添加删除的文本框(textMany)等,以满足更复杂的元数据管理需求。具体类型如下表:
type | text | 文本框 |
textarea | 多文本框 | |
date | 日期(年月日) | |
radio | 单选框 | |
select | 下拉选择列表 | |
selectMany | 可多选的下拉列表 | |
textTabMany | 支持多个tab的文本框(适用于关键词) | |
textMany | 支持多个的文本框(可添加删除) | |
author | 作者类型 | |
project | 项目类型 | |
org | 机构类型 | |
paper | 论文类型 | |
DOI | doi,数据审批通过后自动注册 | |
CSTR | cstr,数据审批通过后自动注册 | |
subject | 学科分类 | |
image | 图片类型 | |
license | 许可协议 | |
privacyPolicy | 访问权限 | |
title | 元素显示名称 | |
placeholder | 元素填写提示语 | |
multiply | 1:1 | 至少一个最多一个(必填) |
1:* | 至少一个,数量不限 | |
0:1 | 可为空最多一个 | |
0:* | 可为空不限制数量 | |
language | zh/en | 语种,中文或者英文 |
iri | https://schema.org/name | 元素标识和定位的字符串,通俗点就是字段名称定义 |
check | 正则校验,比如文本框可通过正则要求填写什么内容 | |
formate | yyyy-MM-dd | 用于在日期类型设置可选格式 |
3.如何修改XML内容
要自定义修改InstDB的元数据模板,需要对XML文件的内容进行编辑。以下是修改步骤:
a.打开XML文件:使用文本编辑器或XML编辑器打开元数据模板的XML文件。
b.定位需要修改的元素:根据模板的组成格式和支持的配置类型,定位到需要修改或添加的XML元素。
c.编辑元素内容:根据需要修改或添加的内容,编辑相应的XML元素。例如,可以修改数据集名称或数据集描述的内容,或者添加新的元数据字段。
一组<bean>标签表示一个元素,也就是数据的字段。<bean>标签里面的<property>标签来定义具体的属性,具体属性描述参考上面模板概述去选择填写。在添加新的元数据字段时,需要明确字段的名称、类型、是否必填等属性,以确保字段的正确性和有效性。在修改模板时,建议进行充分的测试,以确保修改后的模板能够满足实际的数据管理需求。还需注意一点:每一个<bean>标签内的iri必须是唯一的。
d.保存并验证:完成编辑后,保存XML文件并进行检查,确保修改后的模板符合XML格式要求,然后在InstDB中的元数据模板中上传,如果上传模板提示成功就说明模板文件格式正确。能够在InstDB中正确加载和使用。