02139计算机信息检索[成都理⼯⼤学⾃考复习]
《计算机信息检索》复习资料
第⼀章:互联⽹信息资源
1.1互联⽹上的信息资源
互联⽹已发展成为当今世界最⼤的平台。(2019.4判断题)
1.1.1⽹络上的信息内容?P1
(简述因特⽹上的主要信息内容包括哪些种类?)
答:政府信息、科研信息、教育信息、媒体信息、商务信息、休闲娱乐信息。
(1)政府信息:⽹上最具有价值的⼀部分信息,由于出⾃官⽅,所以具备权威性,可靠性等特点。(2019.4判断题)
(2)科研信息:专业学术机构设⽴。
(3)教育信息:互联⽹已经发展成为⼀种重要的教育⼿段、学习环境。
(4)媒体信息:⽹络媒体受众⼴泛、关注度⾼、交互性强、价格低廉。
(5)商务信息:各种市场调查、市场研究与分析预测信息。(2019.10判断题)
(6)休闲娱乐信息:⽹上“最成功”并具有占⽐优势的领域。(2016.4选择题)
1.1.2⽹上不太可能有的信息:如有关企业公司的战略、发展规划,商业、贸易秘密;商业性库和⼤多数有版权的印刷资料等。
1.2互联⽹信息资源的特点及局限性P3-P4
1.2.1互联⽹信息资源的特点(2018.10选择题,2019.10简答题)
答:⼴泛性、多样性、共享性,新颖性、互动性、经济性。
1.2.2互联⽹信息资源的局限性(简答题)
答:分散、⽆序、多变、信息质量难以控制、信息安全难以保障。
1.3互联⽹上信息资源的种类P5-P6(重点)
1.3.1Web信息资源(名词解释)(选择题)
答:⼜称world wide web,简称WWW,中⽂译为“全球信息⽹”“万维⽹”,是因特⽹信息资源主要,最常见的形式。是建⽴在超⽂本,超媒体技术的基础,集⽂本、图像、图形、声⾳为⼀体,并以直观的图形⽤户界⾯(GUI)展⽰和提供信息的⽹络资源形式。
1.超⽂本传输协议HTTP(名词解释)
答:HTTP是浏览器与Web服务器之间相互通信、传输、响应⽤户请求的协议。Web服务器根据客户提出的HTTP请求,为⽤户提供信息浏览、数据查询、安全验证等⽅⾯的服务。
2.超⽂本标记语⾔HTML(名词解释)
答:HTML是⼀种专门的编程语⾔,具体规定和描述了⽂件显⽰的具体格式。
3.通⽤资源定位程序URL(2016.10判断题,2018.10选择题)
答:通⽤资源定位程序⼜称⽹络资源的统⼀定位格式或统⼀资源定位器。实际上就是⼀种以标记⽂档类型及其所在⽹络地址的字符串。
4.主页Home Page
答:主页是浏览器访问某个Web服务器上的信息时第⼀个链接到的⽂档。
5链接Link(2019.10名词解释)
答:链接是web⽹页的元素,是指向其他信息资源的指针,把web页捆绑在⼀起。跟随链接可以从⼀个⽂档跳转到另⼀个相关⽂档。
6.浏览器
答:浏览器是web服务客户端的浏览程序,是显⽰⽹页服务器或档案系统内⽂件,并让⽤户与这些⽂件互动的⼀种软件。
WWW是互联⽹上最流⾏的信息传播⽅式,Web资源成为互联⽹上最具优势的主流信息资源。(判断题)
1.3.2Telnet资源P6-P7
Telnet协议是互联⽹远程登录服务的标准协议和主要⽅式。(判断题)
Telnet资源的功能
答:通过在远程计算机上登录,使⽤户正在使⽤的计算机暂时成为它所登录的某⼀远程主机的仿真远程终端,进⽽实时访问、共享、使⽤到远程计算机系统中对⽤户开放的相应资源。
Telnet资源的⼀般步骤
1)在Telnet命令中输⼊远程计算机的域名或IP地址,在本地机与远程主机间建⽴⼀个TCP连接。
2)连接成功后,在本地终端上输⼊⽤户名和⼝令以获得系统认证或访问权。
3)获得访问权后,按给定的访问权限,访问权限允许的相关资源或使⽤该系统提供的各种互联⽹服务,如E-mail、FTP、Archie等。
4)访问结束,本地终端还要与远程主机撤销连接。
1.3.3简述FTP获取⽂件的⼀般步骤。(简答题)P7-P8
答:ftp是互联⽹使⽤的专门⽤来传输⽂件的协议,该协议的主要功能是完成⼀个系统到另⼀个系统完整的⽂件拷贝,即在联⽹计算机之间传输⽂件。ftp是获取各种计算机⽂件、共享软件资源不可缺少的⼯具。
通过FTP获取⽂件的⼀-般步骤包括以下⼏点:
(1)登录,通过⽤户名及⼝令匿名登录到远程ftp服务器。
(2)浏览⽬标,到所需⽂件。
(3)设置⽂件传输参数,选择⽂件的传输模式。如:ASCII 模式- - -⽤于传输⽂本⽂件:⼆进制模式--⽤于传输⾮⽂本⽂件。
(4)下载所需⽂件。
1.3.4⽤户组信息资源(2019.10名词解释,简答题)P8
答:⽹上各种各样的⽤户新闻组、邮件曾经是互联⽹上很流⾏的信息交流形式,包括:新闻组、电⼦邮件、专题讨论组、兴趣组、论坛。虽名称各异,但实质上都是由⼀组对某⼀特定主题事物有共同兴趣的⽹络⽤户组成的邮件组或电⼦论坛,是⼀种有组织的电⼦邮件系统。
尽管由于近年来随着互联⽹的发展、宽带的普及,出现了更多快速、便捷的 实时交流⽅式,如RSS、Blog、Twitter等,使⽤户组的风头逐渐削弱。
1.4互联⽹信息资源的评价P10
1.4.1评价的意义
答:对⽹络信息资源进⾏质量评价,从信息海洋中经过甄别、筛选出学术价值或利⽤价值的精华部分,推荐给⽹络⽤户使⽤,可以较好的屏蔽⼀些信息污染或噪⾳,⼤⼤地提⾼⽤户利⽤互联⽹信息资源的效率。
1.4.2评价的标准(2019.4论述题)P10-P11
(论述互联⽹资源的评价标准)
答:对互联⽹资源的评价⼀般是以⽹站或⽹页为评价单位,借鉴了传统的对印刷型⽂献评价的标准并结合⽹络信息的特点,主要着眼于⽹页所提供的信息内容质量和信息存取⽅式等综合⽽成的。
评价标准分为以下⽅⾯:
⽬的:即该⽹站是否有明确说明其⽬的、对象。
范围:即该⽹站所覆盖的主要领域,所提供信息的⼴度、深度,时间范围以及所包含的⽹络资源类型和服务范围。
内容:该⽹站所提供的信息是事实性的,评价性的,是否包括原始信息还是仅提供链接。
费⽤:为接受该⽹站服务所花费的连通时间或流量计费,为访问、获取、使⽤该⽹站中的知识内容所必须付出的费⽤。
评论:关注有关的⽹络资源评价服务。
1.4.3评价⽅法P12
⽹络信息资源质量的评价⽅法。(判断题)
答:(1)定性评价:按照⼀定的评价标准对被评估站点的各⽅⾯特征、质量做出主观评判。
(2)定量评价:利⽤数量分析⽅法,对相关数据进⾏调查采集、统计分析,进⾏做出较系统、客观的评判。
⽹络信息资源的⼀般评价⽅法(简答题)
答:(1)从URL中得到信息:看出信息所在的服务器⽹域(2017.4选择题)。
(2)查看⽹站描述和版权说明。
(3)从链接中获得信息。
(4)参考他⼈的评价。
第⼆章:互联⽹信息检索概论
2.1互联⽹信息资源的类型和特点
2.1.1互联⽹信息检索的类型P15
1、“顺链⽽⾏”的浏览;(基于“超链接”的技术特点)
2、基于⽬录型检索⼯具的互联⽹信息检索;
(2019.10判断黄页是⽬录型检索⼯具,2019.4判断Yahoo是⽬录型...)
(黄页,Yahoo雅虎:最具代表性的互联⽹⽬录型检索⼯具,搜狗“⽹址导航”、百度的“hao123”、南开⼤学数学图书馆维护的“数学学科⽹络资源导航”)
1. 基于索引型检索⼯具的互联⽹信息检索
以关键词为基础的查询模式,属于特性检索。
Gooleg⾕歌:全球最⼤的⽹络搜索引擎(判断题)
2.1.2信息检索的特点P20(简答题)
答:1)⽆限的检索范围,动态的检验对象。
2)丰富的检索内容,新兴的检索领域。
3)强⼤的检索⼯具,低廉的检索费⽤。
2.2互联⽹信息检索原理之⼀信息组织P21-P27
基于索引的互联⽹信息检索⼯具的功能在于信息组织和信息查询。
信息组织(2019.10名词解释)
答:信息组织就是把数据按照⼀定的结构、顺序、排列⽅式组织起来,或者说是按照信息查询的需要,对数据根据其特征进⾏组织:信息组织的⽬的是服务于信息查询。
信息查询
答:就是通过搜索、定位以及取得数据的过程,也就是说从⼤量数据集合中获取⽤户需要的相关信息,信息查询的效果和成败极⼤地依赖于信息组织的⽔平。
2.2.1⽂档分析
⽂档分析的主要功能是过滤⽂件系统信息,为⽂件系统的表达提供⼀种满意的索引输出。
2.2.2建⽴索引P24
答:为了快速响应检索,在组织信息时就必须建⽴索引。索引是⼀种将关键词词⽬映射到相应⽂档的数据结构。
2.2.3归类和聚类(2019.10选择题)
⾃动分类⽅法⼜可分为(归类)和(聚类)两种。P26
⾃动归类
答:是分析⽹页的内容特征,并与实现拟定的各种类别中的特征描述进⾏⽐较,然后将对象归⼊为特征最接近的⼀类,并赋予相应的分类号。
⾃动聚类
答:从待分类⽹页提取特征,然后将提出的特征进⾏⽐较再根据⼀定的原则或需要,将具有相同或相
近特征的对象定义为⼀类,这个类⽬未必是事先拟定好的。
2.2.4元数据P28
答:描述数据的数据。编制⽬录的⽬的在于描述数据的内容或特⾊,进⽽达成辅助信息检索的⽬的。⽽元数据就是⽤来揭⽰各类型电⼦⽂档的内容和其他特征的有⼒⼯具,其典型的作业环境是互联⽹。
2.3互联⽹信息检索原理之⼀信息查询
2.3.1布尔检索模型P30
答:最简单的模型,也是其他检索模型的基础。(2019.4选择题)
2.3.3向量空间检索模型P32
答:基本思想是⽂档和检索提问都可以⽤向量表⽰,利⽤线性代数理论,检索过程就是计算⽂档向量与检索提问向量之间的相似度,可以根据相似度值的不同,对检索结果进⾏排序;还可以根据检索结果,做进⼀步的相关检索。P32
2.3.4概率检索模型P36
答:概率模型有严格的数学理论基础,采⽤了相关反馈原理客服不确定性推理的缺点(2019.10判断题),他的缺点是参数估计的难度⽐较⼤,⽂件和检索的表达也⽐较困难。
2.4简述互联⽹检索⼯具的性能评价P36-P38(简答题)
答:互联⽹信息检索⼯具的⽐较研究主要集中在系统功能设置、⽤户界⾯、数据库内结构与更新。主要指标包括:(收录范围,检索功能,检索效率)
2.4.1收录范围
2.4.2检索功能:是评价与选择互联⽹信息检索⼯具的核⼼指标(2016.4判断题,选择题)
检索功的指标包括检索⽅式、检索技术、检索限定
检索限定:可否对不同的数据库,⽂档及可检验字段进⾏选择与限定(2017.4选择题)
2.4.3检索效率
查全率(名词解释):对于⼀项检索,实际检出的⽂件数⽬与所有应该被检出的⽂件数⽬的⽐率。
检准率:对于⼀项检索,实际检出的⽂件之中有多少⽐率是真 正应该被检出的⽂件。较⾼的检准率可
以节省⽤户从检出的所有⽂档中过滤掉⽆关信息的时间。)
第三章:互联⽹检索⼯具(⼀)搜索引擎
3.1搜索引擎概述(名词解释)P40
答:是⼀种能够通过互联⽹接受⽤户的查询指令,帮助⽤户迅速地从⽹上查所需要的信息,冰箱⽤户提供符合其查询要求的搜索结果列表及相关信息的检索系统。
Archie:是第⼀个互联⽹信息检索⼯具。P40(选择题)
搜索引擎的三个阶段P42
答:(1)第⼀代搜索引擎是以⽂档分类导航为特征,是基于⽂档内容的搜索引擎,以Yahoo为代表。
(2)第⼆代搜索引擎产⽣于20世纪90年代中期,以关键词匹配为特征,并基于超链接分析技术,从⽽实现⽹页的⾃动抓取、排序
等。(2019.4判断题)
(3)第三代搜索引擎⽬前尚未形成统⼀的界定标准,开发也处于探索阶段。
3.1.2搜索引擎的⼀般⼯作流程
答:⾸先对互联⽹上的⽹页进⾏搜集,其次对搜集来的⽹页进⾏预处理,建⽴⽹页索引库,实时响应⽤户的查询请求,并对查到的结果按某种规则进⾏排序后返回给⽤户。
1.搜索引擎的⼯作原理P42-P44(简答题)
答:(1)抓取,从互联⽹上抓取⽹页:搜索引擎的信息搜集基本上是⾃动的。
(2)索引,建⽴索引数据库:此过程即为搜索引擎对搜集到的⽹页信息进⾏系统整理的过程。
(3)搜索、排序,在索引数据库中搜索排序:⽤于输⼊关键词进⾏检索后,由搜索系统程序从⽹页索引数据库中到符合该关键词的所有相关⽹页。
(4)显⽰,对搜索结果进⾏处理排序:搜索引擎定期对⽹页进⾏重新访问,更新数据库信息,同时根据⽹页⽂字和链接关系的改变重新进⾏排序。
2搜索引擎的关键技术P44-46(论述题搜索引擎的关键技术和发展趋势12分)
答:(1)信息搜集和存储技术,⼀般分为⼈⼯和⾃动两种⽅式。(1分)
(2)信息预处理技术,含关键提取技术,垃圾信息消除技术,链接分析技术,⽹页重要性技术技术。(1分)
(3)信息索引技术(2019.4简答题),含信息词语切分和词语语法分析,进⾏词语标注及相关的⾃然语⾔处理,建⽴检索项索引,检索结果处理技术。(1分)
搜索引擎确定相关性的⽅法P45:
概率⽅法:根据关键词在⽂中出现的频率来判断⽂件的相关性。
位置⽅法:根据关键词在⽂中出现的位置来判定⽂件的相关性。
摘要⽅法:搜索引擎⾃动地为每个⽂件⽣成⼀份摘要,让⽤户⾃主判断结果的相关性。
分类或聚类⽅法:搜索引擎采⽤分类或聚类技术,⾃动把查询结果归⼊到不同类别中。
北京自考个人登录(2017.10选择题)
3.搜索引擎技术的发展趋势P46-47
答(1)⾃然语⾔检索技术(1分)
(2)⽬录导航检索与关键词检索相结合(1分)
(3)智能化和个性话检索技术(1分)
(4)多媒体检索技术(1分)
(5)3G移动搜索(1分)
(6)交叉语⾔检索技术(1分)
3.2⽹络检索⼯具的分类P47-P48(2018.10选择题,2019.10简答题)
1.按检索对象划分
(1)web资源检索⼯具(2)⾮web资源检索⼯具
2.按检索机制划分
(1)⽬录型Yahoo(2)索引型Google(3)混合型
3.按检索领域划分
(1)综合型⽹络检索⼯具(2)专业型⽹络检索⼯具(3)特殊型⽹络检索⼯具
4.按集成检索⼯具数量划分