SKOSsy:利用DBPedia自动生成叙词表?

2011/12/13   点击数:1029

[作者] 编目精灵III

[单位] 编目精灵III

[摘要] 奥地利的语义Web公司(Semantic Web Compan)正在开发一个自动生成英语和德语叙词表的工具SKOSsy。SKOSsy可以针对某个领域,从维基百科的关联数据形式DBPedia中抽取数据,生成基于SKOS的叙词表“种子”,随后再使用专门的叙词表编辑工具清理,增加概念、关系及链接等。

[关键词]  自动 工具 叙词表



奥地利的语义Web公司(Semantic Web Compan)正在开发一个自动生成英语和德语叙词表的工具SKOSsy。SKOSsy可以针对某个领域,从维基百科的关联数据形式DBPedia中抽取数据,生成基于SKOS的叙词表“种子”,随后再使用专门的叙词表编辑工具清理,增加概念、关系及链接等。也就是说不必一切从零开始了。

据该公司博客介绍,利用SKOSsy制作某一领域叙词表雏形,然后使用PoolParty系列工具完成词表,进而自动标引、形成检索系统的过程如下:

1、在维基百科/DBPedia中找到最合适的类别

2、由SKOSsy遍历DBPedia收集所有资源、等级与非等级关系、交替标签、定义及其他属性,并组织成一个有效的SKOS叙词表。整个过程持续几分钟。

3、把初成的叙词表装入PoolParty Thesaurus Manager (PPT),人工完善。

4、使用PoolParty Extractor (PPX)生成定制的文本抽取器。

5、用PPX从文档中自动抽取命名的实体并做索引。

6、数秒钟后语义搜索引擎就可以用了。 PoolParty Semantic Search (PPS)可以提供类别自动完成、分面检索、内容推荐(类似检索)及智能检索提示。

这广告实在很生动。虽然博文中提供了一个自动生成的示例词表的链接,但需要登录才能看,效果不明。想要实际体验的话,可以向他们发送自己感兴趣的领域,他们会向你发送测试邀请,或者为你准备一段演示。

Via mod librarian: Metadata Monday: Automated Controlled Vocabularies?(梯子自备)

SKOSsy Dynamically Generates Thesauri: Automated Controlled Vocabularies A Real Possibility?

by NARESH SARWAN on DECEMBER 2, 2011

Introducing SKOSsy – generate thesauri on the fly!

November 29, 2011 by Andreas Blumauer

原文连接:http://catwizard.net/posts/20111213223721.html