CADAL数字化文本数据规范草案
Edocument Metadata
(Version 2.0)
CADAL项目管理中心
2004年7月
目录
1. 规范说明 (34)
2. 著录对象 (45)
3. CADAL元数据标准的总体说明 (56)
3.1 功能需求 (56)
3.2 开发原则 (67)
3.3 执行框架 (89)
3.4 CADAL元数据规范定义 (1011)
4.CADAL元数据 Schema (3233)
4.1 Schema源码 (3233)
4.2 CADAL元数据结构图 (3334)
5.著录规则 (3536)
6. 分类主题标引要求 (3536)
7. 著录实例 (3637)
7.1 元数据XML文件 (3637)
7.2 电子图书OPF文件 (3637)
7.3 四库全书元数据著录实例 (3738)
7.4 学位论文著录实例 (3940)
7.5 普通图书著录实例 (4041)
参考文献: (4142)
CADAL数字化文本元数据规范
CADAL Edocument Metadata (draft)
CADAL元数据标准是依据OEBPS规范和中美双方对CADAL元数据著录内容的共同要求,参照国家科技部科技基础研究重大科技专项“我国数字图书馆标准范围研究”项目之子项目“专门数字对象元数据标准规范研究”项目组研制的《电子图书元数据规范》以及《古籍元数据规范》等,对数字图书馆的收藏对象进行分析后制定的。本标准草案的著录对象包括:普通图书、古籍、学位论文等的数字化文本。文献的内容及载体形式的不同,信息反映要求自然也不尽相同。因此,这三种文献分别采用不同的元数据著录参照规则。本标准草案主要包括三个方面内容:一、元数据规范;二、著录规则及主要著录项目信息源说明;三、著录实例。
1. 规范说明
1.1规范名称为CADAL数字化文本描述元数据规范,版本为Edocument Metadata Version
2.0。
1.2规范责任单位为CADAL元数据规范项目组,起草单位为浙江大学图书馆。
1.3规范起草时间为2003年4月11日。
1.4规范复用了Dublion core(DC)的15个元素作为数字对象核心元素集。
1.5规范复用了美国国会图书馆(LOC)的MARCXML Schema作为著录对象内容描述元素集。
1.6规范参照了OEBPS对Dublin Core的15项核心元素的定义。
1.7规范撰写人:金更达、黄晨、孙晓菲等
2. 著录对象
数字化文本是以数字形式制作、出版、存取和使用的文献资源,一般以磁或电子介质为存贮载体,并借助一定的阅读设备或阅读软件来读取。虽然在内容描述上,数字化文本与印刷型文献区别不大。但是,数字化文本存取灵活,具有与印刷型文献不同的多种功能。第一,数字化文本可以实现对文献内容的深入揭示和多维组合功能;第二,数字化文本可以针对不同读者的需求实现个性化的文献导读功能;第三,
数字化文本可以对文本内容进行多种方式的管理。然而这些功能的实现均依赖于数字化文本著录元数据标准的建立。
建立数字化文本著录元数据标准,首先必须明确著录对象。目前,CADAL 项目计划数字化的资源总量在100万册(卷),中文资源和英文资源各为50万册左右, 将主要选择学术著作及其他对教学、科研具有重要参考价值的图书进行数字化制作。数字化制作的现代中文图书的总量将在30万册以上(CADAL定义的现代中文图书是指“五四”以来出版的图书)。其中1949年以后出版的图书约20万册,1911年至1949年出版的图书(民国图书和期刊)约10万册;学位论文数字化制作的总量预计在10万篇左右;古籍10万册(卷)。因此,本标准著录对象可以界定为普通图书、古籍、学位论文等的数字化文本,暂时不包括期刊的数字化文本。
数字化文本一般有两类:印刷型文献的数字化衍生物和原生的数字化产品。本标准的著录对象特指印刷型文献的数字化衍生物。另外,数字化文本元数据标准的制订准则是适应数字化文本以发布的形式作为基本的著录单元。用户可以依据其数字环境的需求,使用该标准对一部数字化文本进行著录;也可以对能独立使用的数字化文本的某一章节进行著录。由于本标准定义的数字化文本来源于传统印刷型文献(图书、古籍和学位论文)的数字化衍生物,因此,数字化文本的基本著录单元应以图书、古籍和学位论文印刷型的著录单元为基础。另外,由于数字化文本存取灵活,在著录时不考虑印刷型文献集中著录的现象。
3. CADAL元数据标准的总体说明
XML及其相关技术的发展,使元数据(Metadata)成为数字图书馆资源组织管理的基础。目前,我国数字图书馆建设还未形成一个类似于MARC一样被广泛采用的元数据标准,其原因归咎于每个数字图书馆建设都有其不同的功能需求,而元数据设计最重要的原则就是满足项目所确定的功能需求。因此要设计CADAL元数据标准规范,首先必须确定其功能需求。
3.1 功能需求
经中美双方协定,CADAL电子书格式采用了由开放式电子图书论坛(Open eBook Forum)出版结构工作组发布的开放式电子图书出版结构(OEBPS)规范,该规范一方面给电子图书的内容提供者制定了最低限度的电子图书出版格式标准,内容提供者可以按照该标准制作电子图书;另一方面也给电子图书阅读系统开发商提供了电子图书的内容揭示标准,以确保符合该标准的电子图书能够在相应的阅读系统上得到准确的再现,同时易于访问。OEBPS规范主要由6个核心元素组成:
 包标识符(package unique-identifier)
 元数据(metadata)
 文件表单(manifest)
 脊骨(spine)
 漫游(tours)
 向导(guide)
其中<Metadata>元素用于确定电子图书的元数据著录格式、内容和元数据所属的命名空间。Metadata元素有两个子元素组成:<dc-metadata>和<x-metadata>,其中<dc-metadata>元素采纳了Dublin Core所定义的15项核心元素;<x-metadata>则用于扩展,允许内容提供者表达超出都柏林核心范围的、自定义的元素。因此OEB制作者可以根据自身的需求定义自己的扩展元素,也可以直接复用其它元数据标准中规定的元素。
根据OEBPS规范的定义,CADAL元数据标准应包含Dublin Core的15项
核心元素,这也是中美双方经过协商所必须包含的部分。但由于CADAL项目是要建立一个具有百万数量级电子图书、存储容量达到几十个TB的数字图书馆,仅仅用于信息发现的简化元数据标准,——采用DC的15项元素显然无法满足对百万册电子文献的信息组织提出的更高要求。多维地、有效地、清晰地揭示信息是数字图书馆信息组织的一个重要原则,因此CADAL元数据标准规范的功能需求主要体现在以下几个方面:
郑州人才市场档案
(1)符合OEBPS规范的要求;
(2)包含Dublin Core的15个核心元素;
(3)著录信息包括“数字化对象”本身;
(4)著录信息要多维地、有效地、清晰地揭示电子文献,达到对百万量级电子图书的信息组织。
3.2 开发原则
1.一致性原则
一致性原则是指在元数据设计过程中,应尽量注意保持与现有的国家标准、行业标准或者与其他政府标准、国际标准相一致。鉴于CALIS已采用Dublin Core 的15项核心元素作为元数据的交换标准,而CADAL采用的电子书格式OEBPS 也采用了Dublin Core的15项核心元素,因此CADAL元数据方案将复用Dublin core的15项核心元素和部分元素修饰词和编码修饰词,同时根据DUMP-DOWN 扩展机制扩展2个核心元素。
2.MARC映射原则
CADAL项目元数据的著录对象特指图书、古籍、学位论文等印刷型文献的数字化文本。其中,中文30万册和英文50万册图书均有现成的MARC记录(中文图书可从国家图书馆书目数据库中套录,美方图书则可从西文数据源中套录),因此,可以建立MARC与DC的映射表,将MARC记录通过映射转换成DC。
3.保留MARC记录原则