2024年9月11日发(作者:方德明)
章 节:第二章 信息检索基本理论
学 时:2学时
教学目的:
1 了解信息检索工具的概念、类型。
2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。
3 了解《中国图书分类法》、《汉语主题词表》的主要结构。
4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。
5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。
重点难点:
1
简述信息检索工具的类型。
2
论述分类语言、主题检索语言的原理与特点。
3 简述信息检索的主要步骤。
4 论述提高信息检索效果的方法。
教学进程:
1 信息检索工具(15分)。
2 信息检索语言(30分)。
3 信息检索的步骤(25分)。
4 检索效果的评价(25分)
5 小结(5分)。
思 考 题:
1 简述信息检索工具的种类。
2 简述分类语言与主题语言的含义及其特点。
3 简述信息检索的步骤、方法。
4 简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。
参考资料:
1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社
2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社
3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社
备 注:
1
第二章 信息检索基本理论
1 信息检索工具
信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。在文献检索里面就是我们前
面讲到的二次文献。
按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘、索引。
检索工具的作用:1、存储作用
检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。只有先进行了存
储我们才能进行查找。这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关
主题的目录介绍等来确定我们所需的资料。在有限时间内提高了工作效率。
2、检索作用
存储在检索工具中的资料,可根据我们的需要按一定的方法和规则进行查找。既然是检索工具
集必然具有检索的作用。
3、报道作用
检索工具搭建了文献管理者和文献利用者之间沟通联系的桥梁。它可以向我们使用者展示管理
者所收藏的文献类型、数量等情况,提高了文献的利用率。
例:图书馆的门口专供检索的机子,他将图书馆的馆藏数据存在一套图书馆专用管理系统中,
我们可以通过利用这套系统,来检索图书馆都有哪些书,书名作者是什么?放在什么地方?借出去
基本几本?还有几本在库里,甚至你们读者证的一些信息,包括超期没有,罚金多少等等都可以查
询。他也是一个检索工具。
检索工具类型:
1.1 目录
目录是揭示出版物外部特征的检索工具,如书名、作者、出版社等等,并不涉及书中的具体章
节或期刊中的具体文章。他以“本”为单位报道文献。目录的种类主要有:书名目录:如《全国总
书目》、《全国新书目》;著者目录: ;分类目录: ;主题目录: 。
1.2 题录
题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。内容包括文献号、文献篇名、
作者及工作单位、原文出处等,他也不涉及文献内容,没有内容摘要。文献深度比目录大,是用来
查找最新文献的重要工具。
1.3 文摘
2
文摘也是以单篇文献为报道单位,是描述文献外部特征和主要内容特征的检索工具。我们可以
通过文摘内容了解文献基本内容,从而决定文献的取舍,起到筛选文献的作用。因此其检索功能强
于题录,是检索工具的主体性类型。
1.4 索引
索引是将文献中某些主要的、具有检索意义的内容特征标识或外部特征标识按某种顺序排列,
并注明文献条目线索的检索工具。如主题索引、著者索引。索引常附于检索工具的后部,是检索工
具的主要组成部分,它为查找文献提供了多种检索途径。有的本身全由索引构成,如美国《科学引
文索引》(SCI),美国工程索引EI。
索引的组成主要有索引款目和参照系统两部分。索引款目是索引的主要部分,每条索引款目通
常由文献特征标识(标目)、说明语、地址三项组成。
标目:识别特定款目的主要标志,他控制款目在索引中的位置,检索者可以通过他迅速找到有关
款目。作者姓名、主题词等都可作为标目。采用不同形式标识,就构成不同类型索引。如关键词索
引、分类号索引、作者索引。
说明语:用来限定和进一步细分同一标识下的文献,达到改善索引的功能。文献题名、自编的短
语或短句都可作为说明语。
材料出处:指明了索引中款目的文献线索,如页码、题录或文摘的顺序号等。一般文献描述项和
索引之间常用文摘号相连,文摘号是检索系统编织者给每篇文献确定的一个能代表该篇文献的号码,
我们可通过所引种的文摘号的指引检索文献的描述项,从而获得文献详细信息。
5、搜索引擎
他是以网页为著录单元,在Web中自动搜索信息并将其自动所引到Web服务器。索引信息包括
文档地址,文档中单字出现的频率、位置等。网络搜索引擎很多,著名的有Yahoo! Google 百
度、搜狐、网易、新浪等。
2 信息检索语言
2.1 信息检索语言的概念
举例:每天经邮局寄出的信件来自四面八方,杂乱无章。而代表地址的邮政编码和文字确使这些
信件成为有序。邮政编码使邮件分检速度加快,有序化程度提高。他不是随意组合的,而是代表了
一定的编号。信息也是如此,全世界每年产生的信息何止千万,信息中心将这些信息搜集起来,制
定出有关规则,如使用哪种信息系统,使用哪种分类法和主题词表,著录信息的标准是什么等等。
信息人员根据规定的规则将信息加工后按一定的排序送入信息系统。用户可以按一定得条件去检索
信息了。因此说信息的有序化是由信息著录标准、信息系统的排序方法及检索语言等决定的。
3
检索语言(Retrieval Language)是保证存储和检索的一致的一种共同性的人工语言,它把文献
的存储与检索联系起来,使文献的标引者和检索者取得共同理解,从而实现检索。就检索语言的实
质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信息内容或外在特征及
其相互关系的概念标识体系。检索语言由词汇和语法两部分组成。
词汇是指登录在类表、词表中所有的标识(分类号、检索号、代码等),是可识别的语词;语法
是指如何运用标识来准确表达信息内容和特征,以有效实现信息检索的规则。
在存贮和检索过程中,检索语言起着重要的语言保障作用。它既是编制检索工具的依据,也是
计算机信息存储及检索系统用以表达文献主题概念的人工语言。如果没有检索语言作为标引人员与
检索人员的共同语言,就很难使得标引人员对文献主题内容的表达(文献标引)与检索人员对相同
内容的课题文献需求(课题标引)取得一致,文献检索也就不可能顺利实现,甚至根本无法实现。
2.2 信息检索语言的分类
检索语言的种类很多。按描述文献特征不同,检索语言分为描述文献外表特征的检索语言和描
述文献内容特征的检索语言,见下图。
描述信息内容特征的语
检索语言
描述信息外表特征的语
分类语言
言
主题语言
关键词语言
单元词语言
标题词语言
叙词语言
书/刊名
著者
言
出版事项
代码/序号
图2-2 信息检索语言
题名语言:是按文献题名字顺逐字排检,西文起首冠词一律不排。
著者语言:是按著者姓名,按姓前名后的字顺逐字排检。
号码语言:是按文献代码,发专利号、标准号、报告号、ISBN号、ISSN号等的顺序排检。
2.3 分类语言
4
2.3.1 概述
分类语言是一种直接体现学科知识分类的等级制概念标识系统,是通过对概括性文献信息内容
及某些外表特征的概念进行逻辑分类和系统排列而构成的,用分类号作为检索标识,用于存储和检
索文献信息的一种信息标识系统。
建立体系分类语言的基础是概念的划分。所谓“类”是指具有某种共同属性的事物或概念的集
合。一类事物可以根据其不同的属性进行层层划分。一个概念经过一次划分后形成的一系列概念就
是种概念(下位类),而被划分的概念被称为种概念(上位类)。同一属概念划分出来的各个种概
念彼此之间相互称为并列概念(同位类)。
分类语言包括体系分类语言和综合分类语言(分面组配分类语言)。我们只对体系分类语言进
行研究。
2.3.2 《中国图书分类法》简介
《中国图书分类法》简称《中图法》,是我国图书情报界为实现全国信息资料统一分类编目而
编制的一部大型信息分类法。《中图法》1973年出版第一版,1980年和1982年相继出版第二版、
第三版,现行的第四版1999年正式出版。
《中图法》由分类表、编辑及使用说明和索引三部分组成。编辑及使用说明为了解和掌握分类
表提供指导。索引则是使用分类表的辅助工具。分类表是分类法的主体,是类分信息的主要依据。
因此,以下重点介绍分类表的结构。
(1) 基本部类。它是分类法类目表中最先确定、最概括、最本质的类目。《中图法》
确定为五大部类:马列主义、毛泽东思想、邓小平理论,哲学,社会科学,自然科学,综
合性图书。
(2) 基本大类。它是在基本部类的基础上进一步展开而形成的。基本大类构成分类表
的第一级类目。《中图法》的基本大类有22个。见图2-3。
(3) 简表。简表是整个分类法的基本类目表,一般由基本大类在作一、二度划分出来
的类目和基本大类构成。
(4) 详表。是整个分类法的正文,亦称主表,由所有不同级类目组成。它是类分信息
资料的依据。
(5) 辅助表。也称复分表,它是用于辅助主表的不足,对主表中列举的类目进一步细
分。
基本部类 基本大类
5
马克思主义.列宁主义、毛泽东思想、
邓小平理论 ―――――――――――― A 马克思主义、列宁主义、毛泽东思想、邓小平理论
哲学 ――――――――――――――- B 哲学、宗教
社会科学――――――――――――― C 社会科学总论
D 政治、法律
E 军事
F 经济
G 文化、科学、教育、体育
H 语言、文字
I 文学
J 艺术
K 历史、地理
自然科学―――――――――――― N 自然科学总论
O 数理科学和化学
P 天文学、地球科学
Q 生物科学
R 医药、卫生
S 农业科学
T 工业技术
U 交通运输
V 航空、航天
X 环境科学、安全科学
综合性图书――――――――――― Z 综合性图书
图2-3 《中国图书分类法》基本大类
《中图法》的标记符号采用汉语拼音与阿拉伯数字相结合的混合制号码。用一个字母表示一个
大类,用字母的顺序反映大类的顺序,在字母后面用数字反映大类下类目的划分。分类号码的排列
严格按照小数制的排列方法。数字的位置尽可能使号码的级数代表类目的级数,基本上遵循层累制
的编制原则。见图2-4。
G
G0
G1
G2
文化、科学、教育、体育
文化理论
世界各国文化与文化事业
信息与知识传播
图书馆学、图书馆事业
读者工作
文献检索
科学、科学研究
教育
体育
G25
G252
G252.7
G3
G4
G8
图2-4 《中国图书分类法》类目展开示例
6
2.3.3 体系分类语言的优势:
(1) 族性检索效果强。能较好地体现学科的系统性,便于人们从某一学科或专业角度
查找文献。
(2) 便于随时放宽或缩小检索范围。
(3) 分类标识简单明了,易于掌握。
2.3.4 体系分类语言的缺陷:
(1) 不利于特性检索。
(2) 类目专指度不够,在标引和检索复杂的主题概念时不够准确。
(3) 单线结构,不能体现学科类目间错综复杂的多维关系。
(4) 灵活性差,不能随时修改、补充,对边缘学科和新兴学科缺乏有效的方法。
(5) 对检索者的专业知识要求较高。检索时要将信息主题内容转换成学科或专业名称,
还要将类目转换成学科,影响检索效率和准确性。
例:“茶的种植”、“茶的制造业”、“茶的贸易”都是论述茶这个主题的的,但是在中图分类法
中却被归入“农业S”“工业技术T”“经济F”。影响查全率。
2.3.5 分类检索语言的使用
分类检索语言在信息检索中使用的步骤如下:
(1) 分析研究所需要查找信息的内容主题。
(2) 判断该主题在分类法中属于哪一大类,然后再从大类一级一级往下寻找,直到查
到具体类目或有关类目,记下分类号为止。
(3) 按所得确切分类号在分类检索系统中查找,获得所需信息。
例如:1、查“程序设计”方面的信息,分析主题为程序设计,属工业技术类,然后进行逐级查找:
工业技术T——自动化技术、计算机技术TP——计算机技术TP3——计算机软件TP31——程序设计、
软件工程TP311——程序设计TP311.1。2、查找税收理论方面。分析主题为税收*理论,属财政,而
财政又是大类经济类。因此逐下寻找:经济F——财政金融F8——财政、国家财政F81——财政理
论F810——财政收入与支出F810.4——税收F810.42。按最后查得的分类号到检索工具中去查询即
可得到我们所需的文献。
2.4 主题检索语言
7
2.4.1 概述
主题检索语言是指以自然语言为基础,以名词性术语为基本词汇,用名词性术语作为标识的一
种信息标识系统。它的特点是以代表文献内容特征和科学概念的概念词作为检索标识,并按其外部
形式(字顺)组织起来。
2.4.2 主题检索语言分类
主题检索语言主要有标题词语言、单元词语言、叙词语言和关键词语言四种类型。其中叙词语
言是从单元词语言发展而来的,而单元词语言现已很少使用,故不讲述。以下将标题词语言、叙词
语言和关键词语言作一简要介绍。
(1) 标题词检索语言
由标题法的概念可知,标题法是用规范化的自然语言经过标准化处理的名词术语作为
标识,来直接表达文献信息或涉及到的事物-主题。其原理可概括为:按文献信息所涉及
的主题集中文献,用规范化的语词直接标引文献信息主题,用参照系统间接显示主题之间
的相互关系,用字顺序列直接提供主题检索途径。
(2) 叙词检索语言
叙词检索语言是以自然语言词汇为基础,以概念组配为基本原理,适用于现代信息检
索需要而发展起来的一种信息检索语言类型。叙词语言基本构成要素是叙词。叙词又称主
题词、描述词,它是一种从自然语言中精选出来的,以基本概念为基础的受控词汇。叙词
语言的典据性文本是叙词表。在叙词表中,一方面通过词间关系的揭示来表达其语义关系,
如等同关系、属分关系、相关关系以及等级关系等,同时运用字顺、分类或范畴、等级(词
族)等方法全面显示。因此,叙词表形成了一个密切的语义网络,能适应多途径、多因素
及多种特殊需求的检索,能达到较高的检索效果。
例: 字面组配 概念组配
模拟+控制——模拟控制 模拟+控制——模拟控制
香蕉+苹果——香蕉苹果 香蕉味食品+苹果——有香蕉味的苹果
(3) 关键词检索语言。
关键词是一种用自然语言语词来作标识的检索语言。它是将出现在文献的标题(篇名、
章节名)以至摘要、正文中,对表征文献主题内容具有实质意义的语词作为关键词排在检
8
索入口,同时提供文献地址来满足检索者的检索要求。关键词法与其他主题法语言不同,
它不编制关键词表。而是直接采用自然语言的词语作关键词,对自然语言中大量存在的等
同关系词不加规范统一,也不显示概念之间的关系,所以它的质量是比较差的的。但是,
利用关键词法可以实现检索工具编制过程的计算机化,提高文献报道的时效性。
2.4.3 主题语言的优势
(1) 直观性强。来源于自然语言,用主题词作为标识,符合人们的辨识习惯,便于接
受和掌握。
(2) 专指性强,表达概念唯一。
(3) 灵活性强,可以按检索需要,自由组配检索概念。
(4) 概念网罗度高,一个主题词表达一个泛指的事物,若干个主题词人事科逻辑的组
配,可以形成高度专批的概念。
2.4.4 主题语言的缺陷
无法实现“族性检索”。主题语言按主题概念集中信息,从而造成同一学科文献的分散。
(1) 《汉语主题词表》简介
《汉语主题词表》是为了使用汉字信息处理系统进行检索而编制的,是我国第一部综合性
的大型叙词表,也是国内最通用的一部词表工具书,共有三卷十分册。全表共收录主题词
108568条。主表内容如下:
Gongshi dinge
工时定额
Hour norm
D 时间定额
S 技术经济定额
Z 经济定额
C 产量定额
工时利用
„„
第一分卷 社会科学
第一分册 主表(字顺表)A-Z
第二分册 索引(词族索引、范畴索引、英汉对照索引)
第二分卷 自然科学(略)
9
第三分卷 附表(世界各国政区名称表、自然地理区划名称表、组织机构名称表、
人物名称表及其英文对照索引)
2.4.5 主题检索的步骤
(1) 对研究课题进行主题分析。
(2) 将所得出的主题概念转换成主题词,利用主题词表找出相应的主题词。
(3) 按查出的主题词字顺去翻检目录、索引或输入计算机数据库。
(4) 要注意选用最专指的主题词。
(5) 应将主标题与副标题、说明语联系起来。
(6) 在使用关键词检索信息时,除了使用某一常用的关键词外,还应当使用该词的同
义词、近义词作为检索入口,以保证查全率。
3 信息检索的步骤
课题 分析研究课题 制定检索策略 选择检索工具
调整检索策略 确定检索途径
结果 获取原始文献
初步检索结果 选定检索方法
图2-5 信息检索的具体步骤示意图
3.1 分析研究检索课题的要求
任何检索课题都是在一定范围内依据已知条件查找未知信息的过程。每项检索课题都有明确的
目的和具体的要求,目的越明确,范围越具体,掌握的线索越多,查获所需文献信息的可能性就越
大。一般在进行课题检索之前从以下三个方面分析入手:
3.1.1 分析研究课题的主题内容,即研究课题的所属学科、性质、特点,涉及多学科内容的
检索课题,要找出其主要研究对象,确定检索课题所属学科、专业,从而准确把握检索课题核心内
容的主题概念。
10
3.1.2 确定研究课题所需的文献类型。由于现代科技文献的种类较多,并且所报道的内容各
有侧重,如属于基础理论性研究的,一般侧重查找期刊论文,会议论文。如果是尖端科学技术,则
应侧重于科技报告。如属于发明创造、技术革新,应侧重于专利文献。如为产品定型设计,则需利
用标准文献及产品样本。
3.1.3 根据研究课题的背景信息确定出文献检索的时间范围。检索的时间范围一般据研究课
题的具体情况而定,如进行课题查新,需要检索近10年的文献;若为了掌握动态或解决某个问题,
则以满足具体需要为准,确定检索时间范围。
3.2 选择检索工具
选择检索工具要根据检索课题的学科、专业特点以及所需文献类型,充分考虑检索工具报道文
献的学科专业范围、文献类型、文种是否符合需要;了解所选检索工具对文献揭示的深度、提供的
检索途径、报道的时差等因素。注重利用权威性的检索工具,同时注意将综合性与专业性和单一性
的检索工具结合使用。并优先选择机读型检索工具,以争取最佳的检索效率。
3.3 确定检索途径
在利用检索工具查找文献信息时,主要是利用检索工具的各种索引,每种索引提供一种文献信
息检索途径,一般来说每种检索工具都为用户提供几种检索途径,归纳起来一般可以分为四种:分
类途径、主题途径、作者途径、题名途径、号码等其他途径。
3.4 选择检索方法
文献信息检索方法可归纳为追溯法、常用法和综合法三种。在检索文献信息时可根据检索课题
的不同要求,选择不同的检索途径,以达到省时省力查全的效果。
3.4.1 追溯法:是指利用文献后面所附的参考文献线索进行追溯查找的方法。科学研究的连
续性和继承性决定要不断的参考和借鉴以前的科研成果。一篇学术论文的形成往往要参考或引用多
篇其他论文的内容,并在文末将其作为参考文献列出。利用文末参考文献线索查找相关文献信息,
在某种程度上可以扩大文献来源。由于原文作者所引用的参考文献数量有限,而且不够全面,因此
容易产生漏检和误检,且查全率极低。所以该方法是在缺少检索工具的情况下,作为查找文献的一
种辅助方法来使用。
3.4.2 常用法:是利用检索工具来进行查找文献信息的方法。也是最常用的一种检索方法。
这种方法可分为顺查法、倒查法和抽查法三种。
(1) 顺查法:按课题的起始年代,由远及近逐年查找的检索方法。由于逐年查找,故
查全律较高,而且在检索过程中可以不断筛选,剔出参考价值较小的文献,因而误检的可
11
能性较小。利用这种方法检索文献比较全面、系统,但费时费力,工作量大,适合于内容
较为复杂,时间较长,范围较广的研究课题。
(2) 倒查法:与顺查法相反,是由近及远逐年查找文献的检索方法。这种方法适合于
课题查新以及掌握研究动态和制定研究规划时使用。采取这种检索方法可以及时把握学科
的最新发展动态,且检索的时间跨度可以灵活掌握,检索效率高,但与顺查法相比查全率
相对较低。
(3) 抽查法:根据课题所属学科研究发展的某一高峰时期,抽出一个时间段,进行集
中查找。此方法花费时间较少,检索效率较高。但检索者必须熟悉该学科的发展特点,了
解该学科文献发展较为集中的时间范围,只有这样才能取得较好效果。
(4) 综合法:又叫循环法或分段法,是常用法和追溯法相互结合的一种检索方法。这
种方法是先利用检索工具查出一批有用文献,然后利用这些文献所附的参考文献进行追溯
查找,扩大文献线索。如此分段交替循环进行,从而可得到大量相关文献。
以上检索方法是从手工检索归纳而来的,计算机信息检索方法具有强大的检索功能和极高
的检索效率,这些在以后的章节中将有具体讲述。
3.5 查找文献线索
上述步骤完成后,即可利用所选择的检索工具进行具体的检索。在检索时采用描述文献外表特
征的篇名、著者、序号等途径检索,简便快捷;采用分类途径进行检索,需要在该课题所属的类号
和类目下逐条查找。采用主题途径检索,则要以表达研究课题主题内容的主题词为检索标识。但在
用分类途径或主题途径检索时,可能会出现检索提问标识和文献存储标识不一致而查不到合适的文
献的情况,这时应反复修改检索提问标识,直至检索到适合的文献为止。
当检索到研究课题的相关文献后,应仔细阅读文献著录条目的内容,判定是否有参考价值,如
符合检索需要,则要准确记录下文献的分类号、题名、著者、出处和入藏号等,以便索取原始文献,
并用以积累资料。
3.6 查找原始文献
查找原始文献是文献检索的最终目的。根据检索到的文献线索,利用各种类型的馆藏目录、联
合目录即可查到文献原文。查找原始文献,一般是由近而远,首先从本单位、本地区的文献资源着
手,然后利用全国性的文献联合目录。随着计算机网络化的普及,许多文献收藏与服务机构(特别
是国家、地区级)已将馆藏文献信息建立了数据库,并连入互联网向用户提供文献的查询、传递和
共享服务,利用互联网进行文献的查找和获取目前已成为用户方便、快捷的远程获取原始文献的一
种发展趋势。
12
4 检索效果的评价
4.1 检索效果的评价指标
检索效果是指信息系统检索信息的有效程度,反映了信息系统的检索能力。检索效果的评价指
标一般包括:收录范围、查全率、查准率、相应时间、用户负担输出形式。其中,查全率和查准率
是最主要也是最常用的两项指标。
4.2
查全率和查准率
查全率(Recall Ratio)是指检索出的相关信息与信息系统中的相关信息总量之比。
查准率(Precision Ratio)是指检索出的相关信息和检索出的信息总量之比。
用公式表示:
R
P
检索出的相关信息量
信息系统中相关信息总
检索出的相关信息量
检索出的信息总量
量
100%
a
ab
a
ac
100%
100%100%
表2-1 检索效果评估相关数据表
相关情况
相关信息
检索情况
检索出信息
未检索出信息
总计
a(命中的)
c(漏检的)
a+c
b(误检的)
d(应拒绝的)
b+d
a+b
c+d
a+b+c+d
非相关信息 总计
查全率衡量系统检索出与课题相关信息的能力,查准率衡量系统拒绝非相关信息的能力。两者
结合起来,即表示信息系统的检索效率。检索者的最终目的是要求达到查全率和查准率均为100%,
这实际上是不可能的。一系列试验结果表明,查全率和查准率之间存在互逆关系,即二者同时提高
是不可能的。也就是说,对于任何一个信息系统,在其查全率与查准率之间都存在一个最佳的比例
关系,查全率一般在60%~70%,查准率一般在40%~50%,这是检索的最佳状态。见图2-3。
13
查
100
全
80
率
R
60
40
20
0
查准率 P
2-6 查全率与查准率关曲线图
4.3 影响查全率和查准率的因素
4.3.1 客观因素:
(1) 系统内信息存储不全,收录遗漏严重;
(2) 索引词汇缺乏控制;
(3) 词表结构不够完善;
(4) 标引缺乏详尽性,没有网罗应有的内容;
(5) 信息分类(标引)专指度缺乏深度,不能精确地描述信息主题;
(6) 组配规则不严密,容易产生模棱两可或歧义现象。
4.3.2 主观因素:
(1) 检索课题要求不明确;
(2) 检索工具选择不恰当;
(3) 检索途径和方法过少;
(4) 检索词缺乏专指性,检索面宽于检索要求;
(5) 用词不当;
(6) 组配错误。
4.4 提高检索效果的措施和方法
4.4.1 提高检索工具的质量。
4.4.2 提高用户利用检索工具的能力。
4.4.3 制订优化的检索策略。
14
图
2024年9月11日发(作者:方德明)
章 节:第二章 信息检索基本理论
学 时:2学时
教学目的:
1 了解信息检索工具的概念、类型。
2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。
3 了解《中国图书分类法》、《汉语主题词表》的主要结构。
4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。
5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。
重点难点:
1
简述信息检索工具的类型。
2
论述分类语言、主题检索语言的原理与特点。
3 简述信息检索的主要步骤。
4 论述提高信息检索效果的方法。
教学进程:
1 信息检索工具(15分)。
2 信息检索语言(30分)。
3 信息检索的步骤(25分)。
4 检索效果的评价(25分)
5 小结(5分)。
思 考 题:
1 简述信息检索工具的种类。
2 简述分类语言与主题语言的含义及其特点。
3 简述信息检索的步骤、方法。
4 简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。
参考资料:
1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社
2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社
3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社
备 注:
1
第二章 信息检索基本理论
1 信息检索工具
信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。在文献检索里面就是我们前
面讲到的二次文献。
按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘、索引。
检索工具的作用:1、存储作用
检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。只有先进行了存
储我们才能进行查找。这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关
主题的目录介绍等来确定我们所需的资料。在有限时间内提高了工作效率。
2、检索作用
存储在检索工具中的资料,可根据我们的需要按一定的方法和规则进行查找。既然是检索工具
集必然具有检索的作用。
3、报道作用
检索工具搭建了文献管理者和文献利用者之间沟通联系的桥梁。它可以向我们使用者展示管理
者所收藏的文献类型、数量等情况,提高了文献的利用率。
例:图书馆的门口专供检索的机子,他将图书馆的馆藏数据存在一套图书馆专用管理系统中,
我们可以通过利用这套系统,来检索图书馆都有哪些书,书名作者是什么?放在什么地方?借出去
基本几本?还有几本在库里,甚至你们读者证的一些信息,包括超期没有,罚金多少等等都可以查
询。他也是一个检索工具。
检索工具类型:
1.1 目录
目录是揭示出版物外部特征的检索工具,如书名、作者、出版社等等,并不涉及书中的具体章
节或期刊中的具体文章。他以“本”为单位报道文献。目录的种类主要有:书名目录:如《全国总
书目》、《全国新书目》;著者目录: ;分类目录: ;主题目录: 。
1.2 题录
题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。内容包括文献号、文献篇名、
作者及工作单位、原文出处等,他也不涉及文献内容,没有内容摘要。文献深度比目录大,是用来
查找最新文献的重要工具。
1.3 文摘
2
文摘也是以单篇文献为报道单位,是描述文献外部特征和主要内容特征的检索工具。我们可以
通过文摘内容了解文献基本内容,从而决定文献的取舍,起到筛选文献的作用。因此其检索功能强
于题录,是检索工具的主体性类型。
1.4 索引
索引是将文献中某些主要的、具有检索意义的内容特征标识或外部特征标识按某种顺序排列,
并注明文献条目线索的检索工具。如主题索引、著者索引。索引常附于检索工具的后部,是检索工
具的主要组成部分,它为查找文献提供了多种检索途径。有的本身全由索引构成,如美国《科学引
文索引》(SCI),美国工程索引EI。
索引的组成主要有索引款目和参照系统两部分。索引款目是索引的主要部分,每条索引款目通
常由文献特征标识(标目)、说明语、地址三项组成。
标目:识别特定款目的主要标志,他控制款目在索引中的位置,检索者可以通过他迅速找到有关
款目。作者姓名、主题词等都可作为标目。采用不同形式标识,就构成不同类型索引。如关键词索
引、分类号索引、作者索引。
说明语:用来限定和进一步细分同一标识下的文献,达到改善索引的功能。文献题名、自编的短
语或短句都可作为说明语。
材料出处:指明了索引中款目的文献线索,如页码、题录或文摘的顺序号等。一般文献描述项和
索引之间常用文摘号相连,文摘号是检索系统编织者给每篇文献确定的一个能代表该篇文献的号码,
我们可通过所引种的文摘号的指引检索文献的描述项,从而获得文献详细信息。
5、搜索引擎
他是以网页为著录单元,在Web中自动搜索信息并将其自动所引到Web服务器。索引信息包括
文档地址,文档中单字出现的频率、位置等。网络搜索引擎很多,著名的有Yahoo! Google 百
度、搜狐、网易、新浪等。
2 信息检索语言
2.1 信息检索语言的概念
举例:每天经邮局寄出的信件来自四面八方,杂乱无章。而代表地址的邮政编码和文字确使这些
信件成为有序。邮政编码使邮件分检速度加快,有序化程度提高。他不是随意组合的,而是代表了
一定的编号。信息也是如此,全世界每年产生的信息何止千万,信息中心将这些信息搜集起来,制
定出有关规则,如使用哪种信息系统,使用哪种分类法和主题词表,著录信息的标准是什么等等。
信息人员根据规定的规则将信息加工后按一定的排序送入信息系统。用户可以按一定得条件去检索
信息了。因此说信息的有序化是由信息著录标准、信息系统的排序方法及检索语言等决定的。
3
检索语言(Retrieval Language)是保证存储和检索的一致的一种共同性的人工语言,它把文献
的存储与检索联系起来,使文献的标引者和检索者取得共同理解,从而实现检索。就检索语言的实
质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信息内容或外在特征及
其相互关系的概念标识体系。检索语言由词汇和语法两部分组成。
词汇是指登录在类表、词表中所有的标识(分类号、检索号、代码等),是可识别的语词;语法
是指如何运用标识来准确表达信息内容和特征,以有效实现信息检索的规则。
在存贮和检索过程中,检索语言起着重要的语言保障作用。它既是编制检索工具的依据,也是
计算机信息存储及检索系统用以表达文献主题概念的人工语言。如果没有检索语言作为标引人员与
检索人员的共同语言,就很难使得标引人员对文献主题内容的表达(文献标引)与检索人员对相同
内容的课题文献需求(课题标引)取得一致,文献检索也就不可能顺利实现,甚至根本无法实现。
2.2 信息检索语言的分类
检索语言的种类很多。按描述文献特征不同,检索语言分为描述文献外表特征的检索语言和描
述文献内容特征的检索语言,见下图。
描述信息内容特征的语
检索语言
描述信息外表特征的语
分类语言
言
主题语言
关键词语言
单元词语言
标题词语言
叙词语言
书/刊名
著者
言
出版事项
代码/序号
图2-2 信息检索语言
题名语言:是按文献题名字顺逐字排检,西文起首冠词一律不排。
著者语言:是按著者姓名,按姓前名后的字顺逐字排检。
号码语言:是按文献代码,发专利号、标准号、报告号、ISBN号、ISSN号等的顺序排检。
2.3 分类语言
4
2.3.1 概述
分类语言是一种直接体现学科知识分类的等级制概念标识系统,是通过对概括性文献信息内容
及某些外表特征的概念进行逻辑分类和系统排列而构成的,用分类号作为检索标识,用于存储和检
索文献信息的一种信息标识系统。
建立体系分类语言的基础是概念的划分。所谓“类”是指具有某种共同属性的事物或概念的集
合。一类事物可以根据其不同的属性进行层层划分。一个概念经过一次划分后形成的一系列概念就
是种概念(下位类),而被划分的概念被称为种概念(上位类)。同一属概念划分出来的各个种概
念彼此之间相互称为并列概念(同位类)。
分类语言包括体系分类语言和综合分类语言(分面组配分类语言)。我们只对体系分类语言进
行研究。
2.3.2 《中国图书分类法》简介
《中国图书分类法》简称《中图法》,是我国图书情报界为实现全国信息资料统一分类编目而
编制的一部大型信息分类法。《中图法》1973年出版第一版,1980年和1982年相继出版第二版、
第三版,现行的第四版1999年正式出版。
《中图法》由分类表、编辑及使用说明和索引三部分组成。编辑及使用说明为了解和掌握分类
表提供指导。索引则是使用分类表的辅助工具。分类表是分类法的主体,是类分信息的主要依据。
因此,以下重点介绍分类表的结构。
(1) 基本部类。它是分类法类目表中最先确定、最概括、最本质的类目。《中图法》
确定为五大部类:马列主义、毛泽东思想、邓小平理论,哲学,社会科学,自然科学,综
合性图书。
(2) 基本大类。它是在基本部类的基础上进一步展开而形成的。基本大类构成分类表
的第一级类目。《中图法》的基本大类有22个。见图2-3。
(3) 简表。简表是整个分类法的基本类目表,一般由基本大类在作一、二度划分出来
的类目和基本大类构成。
(4) 详表。是整个分类法的正文,亦称主表,由所有不同级类目组成。它是类分信息
资料的依据。
(5) 辅助表。也称复分表,它是用于辅助主表的不足,对主表中列举的类目进一步细
分。
基本部类 基本大类
5
马克思主义.列宁主义、毛泽东思想、
邓小平理论 ―――――――――――― A 马克思主义、列宁主义、毛泽东思想、邓小平理论
哲学 ――――――――――――――- B 哲学、宗教
社会科学――――――――――――― C 社会科学总论
D 政治、法律
E 军事
F 经济
G 文化、科学、教育、体育
H 语言、文字
I 文学
J 艺术
K 历史、地理
自然科学―――――――――――― N 自然科学总论
O 数理科学和化学
P 天文学、地球科学
Q 生物科学
R 医药、卫生
S 农业科学
T 工业技术
U 交通运输
V 航空、航天
X 环境科学、安全科学
综合性图书――――――――――― Z 综合性图书
图2-3 《中国图书分类法》基本大类
《中图法》的标记符号采用汉语拼音与阿拉伯数字相结合的混合制号码。用一个字母表示一个
大类,用字母的顺序反映大类的顺序,在字母后面用数字反映大类下类目的划分。分类号码的排列
严格按照小数制的排列方法。数字的位置尽可能使号码的级数代表类目的级数,基本上遵循层累制
的编制原则。见图2-4。
G
G0
G1
G2
文化、科学、教育、体育
文化理论
世界各国文化与文化事业
信息与知识传播
图书馆学、图书馆事业
读者工作
文献检索
科学、科学研究
教育
体育
G25
G252
G252.7
G3
G4
G8
图2-4 《中国图书分类法》类目展开示例
6
2.3.3 体系分类语言的优势:
(1) 族性检索效果强。能较好地体现学科的系统性,便于人们从某一学科或专业角度
查找文献。
(2) 便于随时放宽或缩小检索范围。
(3) 分类标识简单明了,易于掌握。
2.3.4 体系分类语言的缺陷:
(1) 不利于特性检索。
(2) 类目专指度不够,在标引和检索复杂的主题概念时不够准确。
(3) 单线结构,不能体现学科类目间错综复杂的多维关系。
(4) 灵活性差,不能随时修改、补充,对边缘学科和新兴学科缺乏有效的方法。
(5) 对检索者的专业知识要求较高。检索时要将信息主题内容转换成学科或专业名称,
还要将类目转换成学科,影响检索效率和准确性。
例:“茶的种植”、“茶的制造业”、“茶的贸易”都是论述茶这个主题的的,但是在中图分类法
中却被归入“农业S”“工业技术T”“经济F”。影响查全率。
2.3.5 分类检索语言的使用
分类检索语言在信息检索中使用的步骤如下:
(1) 分析研究所需要查找信息的内容主题。
(2) 判断该主题在分类法中属于哪一大类,然后再从大类一级一级往下寻找,直到查
到具体类目或有关类目,记下分类号为止。
(3) 按所得确切分类号在分类检索系统中查找,获得所需信息。
例如:1、查“程序设计”方面的信息,分析主题为程序设计,属工业技术类,然后进行逐级查找:
工业技术T——自动化技术、计算机技术TP——计算机技术TP3——计算机软件TP31——程序设计、
软件工程TP311——程序设计TP311.1。2、查找税收理论方面。分析主题为税收*理论,属财政,而
财政又是大类经济类。因此逐下寻找:经济F——财政金融F8——财政、国家财政F81——财政理
论F810——财政收入与支出F810.4——税收F810.42。按最后查得的分类号到检索工具中去查询即
可得到我们所需的文献。
2.4 主题检索语言
7
2.4.1 概述
主题检索语言是指以自然语言为基础,以名词性术语为基本词汇,用名词性术语作为标识的一
种信息标识系统。它的特点是以代表文献内容特征和科学概念的概念词作为检索标识,并按其外部
形式(字顺)组织起来。
2.4.2 主题检索语言分类
主题检索语言主要有标题词语言、单元词语言、叙词语言和关键词语言四种类型。其中叙词语
言是从单元词语言发展而来的,而单元词语言现已很少使用,故不讲述。以下将标题词语言、叙词
语言和关键词语言作一简要介绍。
(1) 标题词检索语言
由标题法的概念可知,标题法是用规范化的自然语言经过标准化处理的名词术语作为
标识,来直接表达文献信息或涉及到的事物-主题。其原理可概括为:按文献信息所涉及
的主题集中文献,用规范化的语词直接标引文献信息主题,用参照系统间接显示主题之间
的相互关系,用字顺序列直接提供主题检索途径。
(2) 叙词检索语言
叙词检索语言是以自然语言词汇为基础,以概念组配为基本原理,适用于现代信息检
索需要而发展起来的一种信息检索语言类型。叙词语言基本构成要素是叙词。叙词又称主
题词、描述词,它是一种从自然语言中精选出来的,以基本概念为基础的受控词汇。叙词
语言的典据性文本是叙词表。在叙词表中,一方面通过词间关系的揭示来表达其语义关系,
如等同关系、属分关系、相关关系以及等级关系等,同时运用字顺、分类或范畴、等级(词
族)等方法全面显示。因此,叙词表形成了一个密切的语义网络,能适应多途径、多因素
及多种特殊需求的检索,能达到较高的检索效果。
例: 字面组配 概念组配
模拟+控制——模拟控制 模拟+控制——模拟控制
香蕉+苹果——香蕉苹果 香蕉味食品+苹果——有香蕉味的苹果
(3) 关键词检索语言。
关键词是一种用自然语言语词来作标识的检索语言。它是将出现在文献的标题(篇名、
章节名)以至摘要、正文中,对表征文献主题内容具有实质意义的语词作为关键词排在检
8
索入口,同时提供文献地址来满足检索者的检索要求。关键词法与其他主题法语言不同,
它不编制关键词表。而是直接采用自然语言的词语作关键词,对自然语言中大量存在的等
同关系词不加规范统一,也不显示概念之间的关系,所以它的质量是比较差的的。但是,
利用关键词法可以实现检索工具编制过程的计算机化,提高文献报道的时效性。
2.4.3 主题语言的优势
(1) 直观性强。来源于自然语言,用主题词作为标识,符合人们的辨识习惯,便于接
受和掌握。
(2) 专指性强,表达概念唯一。
(3) 灵活性强,可以按检索需要,自由组配检索概念。
(4) 概念网罗度高,一个主题词表达一个泛指的事物,若干个主题词人事科逻辑的组
配,可以形成高度专批的概念。
2.4.4 主题语言的缺陷
无法实现“族性检索”。主题语言按主题概念集中信息,从而造成同一学科文献的分散。
(1) 《汉语主题词表》简介
《汉语主题词表》是为了使用汉字信息处理系统进行检索而编制的,是我国第一部综合性
的大型叙词表,也是国内最通用的一部词表工具书,共有三卷十分册。全表共收录主题词
108568条。主表内容如下:
Gongshi dinge
工时定额
Hour norm
D 时间定额
S 技术经济定额
Z 经济定额
C 产量定额
工时利用
„„
第一分卷 社会科学
第一分册 主表(字顺表)A-Z
第二分册 索引(词族索引、范畴索引、英汉对照索引)
第二分卷 自然科学(略)
9
第三分卷 附表(世界各国政区名称表、自然地理区划名称表、组织机构名称表、
人物名称表及其英文对照索引)
2.4.5 主题检索的步骤
(1) 对研究课题进行主题分析。
(2) 将所得出的主题概念转换成主题词,利用主题词表找出相应的主题词。
(3) 按查出的主题词字顺去翻检目录、索引或输入计算机数据库。
(4) 要注意选用最专指的主题词。
(5) 应将主标题与副标题、说明语联系起来。
(6) 在使用关键词检索信息时,除了使用某一常用的关键词外,还应当使用该词的同
义词、近义词作为检索入口,以保证查全率。
3 信息检索的步骤
课题 分析研究课题 制定检索策略 选择检索工具
调整检索策略 确定检索途径
结果 获取原始文献
初步检索结果 选定检索方法
图2-5 信息检索的具体步骤示意图
3.1 分析研究检索课题的要求
任何检索课题都是在一定范围内依据已知条件查找未知信息的过程。每项检索课题都有明确的
目的和具体的要求,目的越明确,范围越具体,掌握的线索越多,查获所需文献信息的可能性就越
大。一般在进行课题检索之前从以下三个方面分析入手:
3.1.1 分析研究课题的主题内容,即研究课题的所属学科、性质、特点,涉及多学科内容的
检索课题,要找出其主要研究对象,确定检索课题所属学科、专业,从而准确把握检索课题核心内
容的主题概念。
10
3.1.2 确定研究课题所需的文献类型。由于现代科技文献的种类较多,并且所报道的内容各
有侧重,如属于基础理论性研究的,一般侧重查找期刊论文,会议论文。如果是尖端科学技术,则
应侧重于科技报告。如属于发明创造、技术革新,应侧重于专利文献。如为产品定型设计,则需利
用标准文献及产品样本。
3.1.3 根据研究课题的背景信息确定出文献检索的时间范围。检索的时间范围一般据研究课
题的具体情况而定,如进行课题查新,需要检索近10年的文献;若为了掌握动态或解决某个问题,
则以满足具体需要为准,确定检索时间范围。
3.2 选择检索工具
选择检索工具要根据检索课题的学科、专业特点以及所需文献类型,充分考虑检索工具报道文
献的学科专业范围、文献类型、文种是否符合需要;了解所选检索工具对文献揭示的深度、提供的
检索途径、报道的时差等因素。注重利用权威性的检索工具,同时注意将综合性与专业性和单一性
的检索工具结合使用。并优先选择机读型检索工具,以争取最佳的检索效率。
3.3 确定检索途径
在利用检索工具查找文献信息时,主要是利用检索工具的各种索引,每种索引提供一种文献信
息检索途径,一般来说每种检索工具都为用户提供几种检索途径,归纳起来一般可以分为四种:分
类途径、主题途径、作者途径、题名途径、号码等其他途径。
3.4 选择检索方法
文献信息检索方法可归纳为追溯法、常用法和综合法三种。在检索文献信息时可根据检索课题
的不同要求,选择不同的检索途径,以达到省时省力查全的效果。
3.4.1 追溯法:是指利用文献后面所附的参考文献线索进行追溯查找的方法。科学研究的连
续性和继承性决定要不断的参考和借鉴以前的科研成果。一篇学术论文的形成往往要参考或引用多
篇其他论文的内容,并在文末将其作为参考文献列出。利用文末参考文献线索查找相关文献信息,
在某种程度上可以扩大文献来源。由于原文作者所引用的参考文献数量有限,而且不够全面,因此
容易产生漏检和误检,且查全率极低。所以该方法是在缺少检索工具的情况下,作为查找文献的一
种辅助方法来使用。
3.4.2 常用法:是利用检索工具来进行查找文献信息的方法。也是最常用的一种检索方法。
这种方法可分为顺查法、倒查法和抽查法三种。
(1) 顺查法:按课题的起始年代,由远及近逐年查找的检索方法。由于逐年查找,故
查全律较高,而且在检索过程中可以不断筛选,剔出参考价值较小的文献,因而误检的可
11
能性较小。利用这种方法检索文献比较全面、系统,但费时费力,工作量大,适合于内容
较为复杂,时间较长,范围较广的研究课题。
(2) 倒查法:与顺查法相反,是由近及远逐年查找文献的检索方法。这种方法适合于
课题查新以及掌握研究动态和制定研究规划时使用。采取这种检索方法可以及时把握学科
的最新发展动态,且检索的时间跨度可以灵活掌握,检索效率高,但与顺查法相比查全率
相对较低。
(3) 抽查法:根据课题所属学科研究发展的某一高峰时期,抽出一个时间段,进行集
中查找。此方法花费时间较少,检索效率较高。但检索者必须熟悉该学科的发展特点,了
解该学科文献发展较为集中的时间范围,只有这样才能取得较好效果。
(4) 综合法:又叫循环法或分段法,是常用法和追溯法相互结合的一种检索方法。这
种方法是先利用检索工具查出一批有用文献,然后利用这些文献所附的参考文献进行追溯
查找,扩大文献线索。如此分段交替循环进行,从而可得到大量相关文献。
以上检索方法是从手工检索归纳而来的,计算机信息检索方法具有强大的检索功能和极高
的检索效率,这些在以后的章节中将有具体讲述。
3.5 查找文献线索
上述步骤完成后,即可利用所选择的检索工具进行具体的检索。在检索时采用描述文献外表特
征的篇名、著者、序号等途径检索,简便快捷;采用分类途径进行检索,需要在该课题所属的类号
和类目下逐条查找。采用主题途径检索,则要以表达研究课题主题内容的主题词为检索标识。但在
用分类途径或主题途径检索时,可能会出现检索提问标识和文献存储标识不一致而查不到合适的文
献的情况,这时应反复修改检索提问标识,直至检索到适合的文献为止。
当检索到研究课题的相关文献后,应仔细阅读文献著录条目的内容,判定是否有参考价值,如
符合检索需要,则要准确记录下文献的分类号、题名、著者、出处和入藏号等,以便索取原始文献,
并用以积累资料。
3.6 查找原始文献
查找原始文献是文献检索的最终目的。根据检索到的文献线索,利用各种类型的馆藏目录、联
合目录即可查到文献原文。查找原始文献,一般是由近而远,首先从本单位、本地区的文献资源着
手,然后利用全国性的文献联合目录。随着计算机网络化的普及,许多文献收藏与服务机构(特别
是国家、地区级)已将馆藏文献信息建立了数据库,并连入互联网向用户提供文献的查询、传递和
共享服务,利用互联网进行文献的查找和获取目前已成为用户方便、快捷的远程获取原始文献的一
种发展趋势。
12
4 检索效果的评价
4.1 检索效果的评价指标
检索效果是指信息系统检索信息的有效程度,反映了信息系统的检索能力。检索效果的评价指
标一般包括:收录范围、查全率、查准率、相应时间、用户负担输出形式。其中,查全率和查准率
是最主要也是最常用的两项指标。
4.2
查全率和查准率
查全率(Recall Ratio)是指检索出的相关信息与信息系统中的相关信息总量之比。
查准率(Precision Ratio)是指检索出的相关信息和检索出的信息总量之比。
用公式表示:
R
P
检索出的相关信息量
信息系统中相关信息总
检索出的相关信息量
检索出的信息总量
量
100%
a
ab
a
ac
100%
100%100%
表2-1 检索效果评估相关数据表
相关情况
相关信息
检索情况
检索出信息
未检索出信息
总计
a(命中的)
c(漏检的)
a+c
b(误检的)
d(应拒绝的)
b+d
a+b
c+d
a+b+c+d
非相关信息 总计
查全率衡量系统检索出与课题相关信息的能力,查准率衡量系统拒绝非相关信息的能力。两者
结合起来,即表示信息系统的检索效率。检索者的最终目的是要求达到查全率和查准率均为100%,
这实际上是不可能的。一系列试验结果表明,查全率和查准率之间存在互逆关系,即二者同时提高
是不可能的。也就是说,对于任何一个信息系统,在其查全率与查准率之间都存在一个最佳的比例
关系,查全率一般在60%~70%,查准率一般在40%~50%,这是检索的最佳状态。见图2-3。
13
查
100
全
80
率
R
60
40
20
0
查准率 P
2-6 查全率与查准率关曲线图
4.3 影响查全率和查准率的因素
4.3.1 客观因素:
(1) 系统内信息存储不全,收录遗漏严重;
(2) 索引词汇缺乏控制;
(3) 词表结构不够完善;
(4) 标引缺乏详尽性,没有网罗应有的内容;
(5) 信息分类(标引)专指度缺乏深度,不能精确地描述信息主题;
(6) 组配规则不严密,容易产生模棱两可或歧义现象。
4.3.2 主观因素:
(1) 检索课题要求不明确;
(2) 检索工具选择不恰当;
(3) 检索途径和方法过少;
(4) 检索词缺乏专指性,检索面宽于检索要求;
(5) 用词不当;
(6) 组配错误。
4.4 提高检索效果的措施和方法
4.4.1 提高检索工具的质量。
4.4.2 提高用户利用检索工具的能力。
4.4.3 制订优化的检索策略。
14
图