XMLSchema异构档案数据库信息整合与检索技术

时间:2024-01-30 点赞:50702 浏览:104053 作者原创标记本站原创

本论文是一篇关于档案馆方面论文注释格式,关于XMLSchema异构档案数据库信息整合与检索技术相关毕业论文题目范文。免费优秀的关于档案馆及数据库及信息检索方面论文范文资料,适合档案馆论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

档案信息技术领域的一个热点问题,就是如何帮助用户高质量地检索并获取真正有用的信息.国际上对中文信息的概念检索非常关注,随着计算机技术和人工智能的发展,信息检索的含义更加丰富,其对概念表达更为灵活.档案领域中的本体研究是关于知识概念表示和知识组织体系方面的研究,将本体的概念引入我国档案领域并加以应用,这方面的研究或应用还是空白.我们对XML Schema的档案数据库信息共享机制进行具体研究,提出异构档案数据库信息整合与检索技术方案,构建了一个具有本体知识和词索分析转换实现档案信息概念检索的试验性检索系统.

一、

1.关于XML Schema的描述及应用研究

由于XML DTD并不能完全满足XML自动化处理的要求,所以W3C于2001年5月正式推荐xML Schema为XML的标准模式,它与XML DTD相比有以下几点优势:XML Schema同样使用XML语法,具备XML很多特性;XML Schema是XML的应用子集,集成XML的自描述性和可扩展性,更具有可读性和灵活性;XML Schema与XML格式的一致性,使得应用系统之间可以方便进行模式交换,很好地满足馆际数据之间的共享;XML Schema则非常适合对于数据合法性要求较高的档案记录;XML Schema支持命名空间,可以避免XML DTD中经常出现的命名冲突问题;而XML Schema则内置了long,short,doubte等37种数据类型,通过将数据类型表示为由value space、lexical space和facet三部分组成的三元组而获得更大的灵活性.

2.关于异构档案数据库的信息整合的研究

档案馆在数字化过程中遗留下来大量基于各种业务流程和异构数据源的应用系统及数据,这些系统满足了档案馆某一特定的业务需求,数据有自身的特点,其他档案馆系统很难使用别的档案馆系统的数据,以至于在档案馆内部以及档案馆之间产生了信息孤岛,阻碍了档案信息化进程.因此,对档案异构数据源进行集成就成为消除信息孤岛的有效途径.

现有的数据整合系统在解决数据异构性问题时,大多是从其数据库系统异构性出发,并没有考虑平台异构性和语义异构性,而现实情况中,很多档案馆的数据库服务器可能并非都基于Windows平台,而且在数据库结构方面,由于档案管理缺乏标准化的协议,各办公自动化系统的数据源和数据结构都和归档系统不一致.这样在进行异构数据整合的时候,我们就必须重点考虑其平台的异构性和语义的异构性.本研究提出一种基于.NET Framework和XML的异构档案数据整合方案,用于专门解决数据集成中的数据异构性问题,并且针对平台异构性和语义异构性,给出了相关的解决方法.

3.关于词义概念和词素匹配之检索技术的研究

主题词表是一种主题检索系统所用的检索词的词汇表,设有参照系统和各种索引,以显示词间语义关系和提供各种查词途径.近几年来,随着计算机网络技术迅速发展,主题词表的建构及其计算机管理已成为提高领域信息检索质量的重要保证,对主题词表的语义环境及其检索的实现研究也成为当务之急.以语素为单位的字面相似匹配方法,尽管考虑了汉语构词的重心后移特点,但从概念的角度来看,汉语通常是以词素,而不是单汉字为语义单位的.我们确立了“档案馆―全宗类别―案卷―文件―附件”这样一个层级关系来确保档案本体的构建,让用户在查找档案文件时能够直接找到所需档案本身.在自动标引方面,本系统基于主题或摘 要 的自动标引,主要利用Lucene.NET提供的分词组件来进行中文分词,并和主题词表中的主题词进行对照后,将其加入档案文件表中文件主题词字段中,从而大大简化了分词方法和过程,提高了分词和标引的准确率.

二、

1.系统实现中的若干关键技术

(1)数字档案馆平台异构性.指各个数据库系统的基础操作系统不同,同时也指数据库管理系统本身的异构.基于此,我们对数字档案馆面临的异构数据整合问题进行了较全面的分析,在参考和吸收了国内外关于异构数据整合研究和实践经验的基础上,针对数字档案馆的特点,提出了一个基于Microsoft.NET平台,以XML为数据交换格式的适合于数字档案馆的异构数据整合架构;并对实现数据整合时的一些问题,例如适配器设计、字段映射、数据去重等问题进行了深入研究,提出了自己的解决方案;同时,还设计了一个基于B/S结构的档案概念检索平台,对应用接口进行统一定义,为今后的扩展留下了余地.

(2)数据转换设计.由于在构建数字档案馆时会涉及一些操作系统及数据库管理系统的升级换代等,异构数据整合平台会因为成员数据源或者全局应用需求的变化而处于不断进化之中.因此,客观上要求目标系统的应用层能够在技术上满足一种数据源的伸缩性要求.为了满足这样一种要求,我们设计了一个数据转换模块,将每个数据源各自的数据接口转换到统一的接口,协调数据整合过程来满足系统应用的跨平台性和可扩展性.


(3)语义异构性在档案数据中的特征表现.异构档案数据库语义异构性是指在多种数据库模型中所存在的各种语法和语义上的冲突.这些冲突在档案数据中主要表现为命名冲突、格式冲突和结构冲突.

(4)语义异构性的数据转换预处理.在数据转换过程中加入了一个预处理器,将数据的预处理工作放在与其语境最接近的地方,既减轻了服务器的负担,又能够保证数据转换的准确性.转换过程中,需要解决字段冲突和格式冲突的问题,在不同数据库数据格式以及字段语义差异、数据去重等方面的处理尤其重要,在转换之前必须要进行相应的字段匹配、去重处理以及格式转换,否则转换中就会出错.我们设计了字段映射、数据去重处理、字段长度判断、格式统一、度量衡统一、缩略词统一以及默认值处理等模块,并将规则参数化,以方便对规则进行必要的修改.

2.系统开发环境与开发内容

本系统是建立在.NET框架上的应用集成系统.系统开发分为多个模块同时开发,开发期间建立临时服务主机,数据库存储过程存于其上,确保了系统接口的统一和样式的统一.在保证开发同步性上采用了Microsoft Visual Sourcesafe 6.0.

系统开发内容包括数据整合、数据挖掘、系统管理、数据检索、帮助五部分.

三、

1.研究内容的先进性

从整个研究过程和学术价值上来看,研究成果主要有以下几点:

(1)提出并构建档案共享信息的XML Schema描述方案,并与DTD描述方案比较,通过预处理特义禁用词和短词推进抽词等先进方法,对档案主题信息进行自动提取和数据挖掘.

(2)提出并研究档案信息的本体方法,通过语义知识和词索分析转换实现档案信息的概念检索,以新的实现方法自动发掘和利用档案主题信息,对于增强我国网络档案信息检索质量具有重要的现实意义.

(3)综合已取得的多项研究成果,完善异构档案数据库信息整合与检索技术的深入研究,提高档案信息资源共享与利用的质量,促进我国相关标准的制定与完善.

2.系统技术的先进性

本系统研发成果归纳起来是:应用研究创新,实现方案灵活,整体技术先进,检索质量改进.

(1)本系统是基于.NET Framework和XML的,所以在性能上,尤其是系统的健壮性和扩展性方面比基于操作系统API和传统数据库的应用系统更有优势,对于不断变化的应用需求具有更好的适应能力.具体是:实现了数据源的可扩展性;实现了系统的跨平台性;系统使用XML作为转换中介,并且可以直接输出XML文件作为转换结果保存.

(2)信息检索技术的改进,表现在系统具有灵活的检索结果控制机制和良好的反馈机制,基于主题词表的概念关联模式,在词素检索技术中引入了基于词表的语义层面词素匹配的概念等.

系统的实现遵循了最大效益和检索效率与功能并重原则.最大效益原则规定异构档案数据的整合必须与我国档案馆具体环境相协调,并能在实践中给档案信息资源的开发带来最大社会效益,说明异构档案数据整合其本身不是目的,而是手段,其最终最根本的目的是为了开发档案信息资源,最大限度地开发档案信息资源,是档案领域中的最大“生产力”.检索效率与功能原则规定异构档案检索工具必须以获得最大的检索效率为前提,这是衡量档案检索工具是否成功的标准,但还要在功能和效率之间进行权衡,做出最合理的搭配,如果在效率牺牲不大的情况下,可以考虑增加相应的检索功能.

相关论文

异构数据库的跨库检索技术综述

本文是一篇图书馆论文范文,图书馆方面本科毕业论文范文,关于异构数据库的跨库检索技术综述相关在职毕业论文范文。适合图书馆及自动化及参考。

基于XML的高校异构数据交换平台设计

此文是一篇数据库论文范文,数据库相关论文范文素材,与基于XML的高校异构数据交换平台设计相关在职毕业论文开题报告。适合不知如何写数据库。

会计档案在信息社会中的合理配置

本论文是一篇会计档案类会计学本科论文,关于会计档案在信息社会中的合理配置相关毕业论文开题报告范文。免费优秀的关于会计档案及社会经济。

异构分布式对象互操作

关于信息化及分布式及对象方面的免费优秀学术论文范文,信息化相关论文注释格式,关于异构分布式对象互操作相关论文范文素材,对写作信息化。

档案数据库的建立

本文关于数据库及计算机及档案方面的免费优秀学术论文范文,关于数据库论文范文数据库,与档案数据库的建立相关毕业论文参考文献格式范文,。

企业文书档案管理信息的电子化应用

为您写文书毕业论文和职称论文提供关于文书相关学士学位论文范文,与企业文书档案管理信息的电子化应用相关论文例文,包括关于文书及信息及文。