图情知识

计算机检索的基本检索方法

发布时间:2010-11-29 作者:林柳枝 发布者:llz 阅读 : 21217

计算机检索的基本检索方法

一、教学目的:

让同学们了解到计算机检索基本检索方法

二、教学方法:讲授法

三、教学内容:

    一)布尔检索

     利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。

     下面以“计算机”和“文献检索” 两个词来解释三种逻辑算符的含义。

    1)“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。

    2)“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。

    3)“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。

     检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。

   (二)截词检索

    截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。

    不同的系统所用的截词符也不同,常用的有?$*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举例说明:

    1)后截断,前方一致。如:comput?表示computer,computers,computing等。

    2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。

    3)中截断,中间一致。如?comput?表示minicomputer,microcomputers等。

     截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。

    (三)原文检索

    “原文”是指数据库中的原始记录,原文检索即以原始记录中的检索词与检索词间特定位置关系为对象的运算。原文检索可以说是一种不依赖叙词表而直接使用自由词的检索方法。

    原文检索的运算方式,不同的检索系统有不同的规定,其差别是:规定的运算符不同;运算符的职能和使用范围不同。原文检索的运算符可以通称为位置运算符。从RECONORBITSTAIRS三大软件对原文检索的规定,可以看出其运算符主要是以下4个级别:

    1)记录级检索,要求检索词出现在同一记录中;

    2)字段级检索,要求检索词出现在同一字段中;

    3)子字段或自然句级检索,要求检索词出现在同一子字段或同一自然句中;

    4)词位置检索,要求检索词之间的相互位置满足某些条件。

    原文检索可以弥补布尔逻辑检索、截词方法检索的一些不足。运用原文检索方法,可以增强选词的灵活性,部分地解决布尔检索不能解决的问题,从而提高文献检索的水平和筛选能力。但是,原文检索的能力是有限的。从逻辑形式上看,它仅是更高级的布尔系统,因此存在着布尔逻辑本身的缺陷。

    (四)加权检索和聚类检索

    1.加权检索

    加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。加权检索的基本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。

    运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法。但并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。

    2.聚类检索

    聚类检索是在对文献进行自动标引的基础上,构造文献的形式化表示——文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开来。

    聚类检索的出现,为文献检索尤其是计算机化的信息检索开辟了一个新的天地。文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。因此,这种检索方式将有可能在未来的信息检索中大有用武之地。

    (五)扩检与缩检

    1.扩检

    扩检是指初始设定的检索范围太小,命中文献不多,需要扩大检索范围的方法。扩检的方法主要可以有以下几种: = 1 \* GB3 ①概念的扩大; = 2 \* GB3 ②范围的扩大; = 3 \* GB3 ③增加同义词; = 4 \* GB3 ④年代的扩大。

    2.缩检

    缩检是指开始的检索范围太大,命中文献太多,或查准率太低,需要增加查准率的一个方法。缩检与扩检相反,即概念的缩小、范围的限定、年代的减少等。此外,还可以通过以下方法进行限定: = 1 \* GB3 ①核心概念的限定; = 2 \* GB3 ②语种的限定; = 3 \* GB3 ③特定期刊的限定。

    扩检与缩检是检索过程中经常面临的问题。在联机检索时,由于机时的限制,用户应该在上机前就拟定好扩检与缩检的策略,也就是说,在拟定检索策略时,应该同时考虑如命中文献太少或太多时如何处理的办法。否则,会大大增加机时,而且不易得到满意的结果。

返回顶部 打印 关闭