知识组织系统(KOS)心得(一)

2012/8/17   点击数:1631

[作者] 思考的乐趣 -- 雨禅的博克

[单位] 思考的乐趣 -- 雨禅的博克

[摘要] 知识组织系统是“各种用来组织信息和增进知识管理水平的方案的总和”,它包括各种词表、分类法等等传统信息组织技术,也包括了诸如语体网络、本体等现代信息和知识组织技术。(Hodge, 2000) 知识组织系统可以看成是传统信息检索语言的发展,传统信息检索语言主要功能为标引者和检索者之间的信息沟通建立一个共同的表达语言。我们知道,一个信息检索系统得基本原理是将用户的提问和储存在系统中的文献进行匹配(match),并将符合用户提问的文献提取出来,为了实现用户提问内容和文献内容之间的匹配过程,人们必须为这两者建立一个共同的词汇,(Chowdhury, 2004) 这就是传统的信息检索语言。但是,随着网络时代的来临,信息管理更加依赖于信息技术,机器,如计算机系统越来越成为人们信息检索的工具,成为人们和信息资源沟通的桥梁,在某种程度上,信息检索是一个人机交互的过程,这就要求机器能够理解人的信息表法,无论是人的信息需求的表达还是人对信息资源描述的表达。这就催生了新的信息组织技术–知识组织系统(KOS)。

[关键词]  知识组织系统 机器



知识组织系统(KOS)描述框架

知识组织系统是“各种用来组织信息和增进知识管理水平的方案的总和”,它包括各种词表、分类法等等传统信息组织技术,也包括了诸如语体网络、本体等现代信息和知识组织技术。(Hodge, 2000)

知识组织系统可以看成是传统信息检索语言的发展,传统信息检索语言主要功能为标引者和检索者之间的信息沟通建立一个共同的表达语言。我们知道,一个信息检索系统得基本原理是将用户的提问和储存在系统中的文献进行匹配(match),并将符合用户提问的文献提取出来,为了实现用户提问内容和文献内容之间的匹配过程,人们必须为这两者建立一个共同的词汇,(Chowdhury, 2004) 这就是传统的信息检索语言。但是,随着网络时代的来临,信息管理更加依赖于信息技术,机器,如计算机系统越来越成为人们信息检索的工具,成为人们和信息资源沟通的桥梁,在某种程度上,信息检索是一个人机交互的过程,这就要求机器能够理解人的信息表法,无论是人的信息需求的表达还是人对信息资源描述的表达。这就催生了新的信息组织技术–知识组织系统(KOS)。

和传统技术的本质区别在于,知识组织系统( KOS)是一种机器可理解的系统,也就是说,知识组织系统是可以被计算机系统所识别、读取和理解。它的核心在于构建概念(知识)属性的形式化描述框架以满足基于及其理解的信息处理和知识管理的功能需求并实现不同系统之间不同层面上的互操作。

从现有的系统看,一个知识系统的形式化描述框架应该由四个层次组成:

逻辑层(logic layer);

结构层(structure layer);

语义层(semantic layer)和

句法层(syntax layer )。

这四个层次担当不同的功能,逻辑层是机器理解和推理的基础;结构层是知识描述的基本框架;语义层用来实现语义标识,而句法层实现表达。

知识系统的概念模型

在上述四层结构框架中,结构层是一个知识组织系统的概念模型,这个概念模型描述了知识系统的基本特征并确定了知识处理原型。知识组织系统的结构层

给出了知识单元的形式化定义;

阐释了知识单元的基本形态、类型和值域;

确定了知识单元的逻辑环境;

规定了知识系统的基本运算规则。

一般说来,具体的知识系统的概念模型是不尽相同的,它的模型构建取决于具体知识系统的功能需求,如分类法和叙词表的功能需求不尽相同,其概念模型就有很大的差异性。但是,无论具体的知识系统的功能需求有怎样的差别,他们总具有一定的共性,也就是说,知识系统总是有基本的普遍的功能需求。兰凯斯特总结了词汇控制的两个基本目标:描述的一致性和检索的完整性。(Lancaster, 1986)也可以被看成现代知识系统的基本功能需求。

为了实现描述的一致性和检索的完整性,我们可以为知识系统建立一个普遍的知识结构原型,这个原型基于如4个假设:

知识的基本单元是概念(Concept)及其相互逻辑关系(Relationship);

每个概念具有明确的含义,可以用唯一的标识指示出来;

概念可以通过一定的规则体系用确定的符号表达出来,所有用来确定表达一个概念的符号被称之为词(Term);概念之间的逻辑关系可以通过词间关系表达出来(Relations)。所以知识可以通过词及其关系表达出来;

表达概念及其相互关系的规则体系和符号集被称为词汇(Vocabulary)。

以上4个基本假设是实现一个知识系统的必要条件。然而在现实世界中,一个概念可以有多种不同的表达形式,尤其当概念通过自然语言来表达时,概念的表达更是具有纷繁复杂的多样性。知识系统中的词(Term)和自然语言中的词(Words)之间不是一种一一对应的关系,而是一对多关系。知识系统就是通过建立Term和Words之间的对应关系,来实现表达的一致性,从而实现词汇控制(Vocabulary control)。

参考文献:

Chowdhury, G. G. (2004). Introduction to modern information retrieval. (2nd ed.). London: Facet.

Hodge, G. (2000). Systems of Knowledge Organization for Digital Libraries : Beyond Traditional Authority Files. Retrieved September 25, 2008, from http://www.clir.org/pubs/reports/pub91/contents.html

Lancaster, F. W. (1986). Vocabulary control for information retrieval. (2nd ed.). Arlington, VA: Information Resources.

原文连接:http://rainzen.bokee.com/6810345.html