信息检索的概念:广义的信息检索是指将信息按一定的方式组织和存储起来,并根据用户的需要找到有关信息的过程和技术;狭义的信息检索是指从信息集合中找到所需信息的过程。
信息(information)信息是事物存在方式、运动状态及其特征的反映,是事物发出的信号、消息。信息具有共享性、存储性和传递性、价值性、时效性。
情报是指运用一定的形式,传递给用户,并产生效益的知识或信息。三个属性:知识性、传递性、效用性。
知识是优化、理论化的信息集合。
文献(document)是指记录有知识的一切载体。也就是说用文字、图形、符号、声频、视频等手段记录下来的人类知识都可以称之为文献。
四个要素:知识载体文字、图形、符号、视频、声频记录
简述信息、知识、文献的概念及其三者之间的关系。
信息:是事物存在方式、运动状态及其特征的反映,是事物发出的信号、消息。
知识:是人类对自然界、人类社会中各种现象、规律的信息反映进行思维分析,加工提炼,经过系统化、理论化的结果。
文献:记录有知识的一切载体
三者从概念范畴上看,信息大于知识大于文献,知识是信息的一部分,是理论化系统化的信息,文献是知识中记载下来的那部分。
信息素质(information literacy)是指判断何时、何地需要信息,并有效的定位、获取、评价和利用信息的一系列能力的总和。包括:计算机素养、因特网素养、媒体素养、图书馆素养、批判性思考的能力。
信息素质主要体现在:
——信息意识:是个体对信息重要性认识程度和对信息是否具有特殊的、敏锐的感受力和持久的注意力,即对信息的捕捉、分析、判断和吸收的敏感性。
——信息能力:是对信息的搜集获取能力、分析鉴别能力和综合利用能力。
——信息道德:是指在整个信息活动中,信息创建者、信息服务提供者和信息使用者所必须要遵守的伦理规范。
零次文献是指未公开出版的实验记录、原始录音(像)、书信、手稿、口头交流的信息或实物等。
一次文献是指作者直接以自己的工作、科研、社会活动等实践经验为依据而撰写,并公开发行进入社会流通的专著、学术论文、专利说明书、科技报告等。
二次文献是根据一次文献外表或内容特征按照一定的规则和方法进行整理、加工、浓缩,按一定顺序编排形成的有序化文献。如各种目录、索引、文摘和各种书目型数据库。
三次文献是为了一定的目的和需求,对大量一次文献信息中的有关内容进行综合、分析、提炼、重新组合而形成的再生性文献。如专题评述、综述、百科全书、参考工具书等。
按文献载体划分
手写型文献(Hand Writing document)印刷型文献(Printed document)缩微型文献(MicroForm document)视听型文献(Audio-visual document)电子型文献(Electronic document)
按文献出版形式划分
图书(Book)期刊(Journal)特种文献(Sp ecial document)①科技报告(国内知网国外NSTL)②专利文献
③会议文献④学位论文⑤政府出版物⑥标准文献⑦技术档案⑧产品资料等
信息检索的概念广义的信息检索是指将信息按一定的方式组织和存储起来,并根据用户的需要找到有关信息的过程和技术。狭义的信息检索是指从信息集合中找到所需信息的过程。
信息检索的原理是:将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。本质是用户的信息需求与存储在信息集合中的信息进行比较和选择,即匹配的过程。检索语言分为分类语言和主题语言
常用的检索途径包括:(主要依据文献的外部特征和内容特征来进行编排)
自由词检索、主题词检索、分类检索、著者检索、机构检索、引文检索、限定检索等
检索步骤
(1)分析检索课题,明确目的和要求
(2)选择合适的检索工具
(3)选择检索途径,确定检索标识。
(4)对检索结果分析评价必要时调整检索策略
(5)查找文献线索。
(6)浏览检索结果,获取原始文献。
检索结果主要通过查全率、查准率两个指标来进行评价。
查全率:系统进行检索时,检出的相关文献量与系统文献库中相关文献总量的比率。
查准率:系统中检出的相关文献量与检出的文献总量的比率。
影响查全率的因素
影响查全率的因素从文献存储上来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念和用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟悉和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
影响查准率的因素
影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所使用检索词专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等。
计算机检索的历史与发展:脱机检索阶段联机检索阶段网络信息检索阶段
计算机检索系统的构成:计算机硬件软件数据库
数据库类型(按内容分型)
(一)书目数据库(Bibliographic Databases)
(二)事实数据库(Numeric Databases)
(三)数值数据库(Fact Databases)
(四)全文数据库(Full Text Databases)
(五)图像数据库(Image Databases)
搜索引擎Internet上具有查询功能的网页的统称,即允许用户递交查询,检索出与查询相关的网页结果列表,并且排序输出。
独立式搜索引擎的工作原理是:
定期运行搜索软件(或人工),搜集网络信息。
利用索引软件进行自动标引,建立数据库。
以Web页面形式向用户提供有关的信息资源导航、目录索引及检索界面,由用户输入检索式。
通过检索软件进行检索,匹配,按相关度排序输出。
按搜索的方式可分为:目录式搜索引擎全文搜索引擎智能搜索引擎元搜索引擎
★GOOLE搜索引擎的具体使用策略………………
作为目前互联网上功能最强大的搜索引擎, Google 的索引目录中已经储存有81 亿个网页。用户可以使用100 多种语言文字进行搜索。现在, Google 平均每天接受的搜索次数达2 亿人次, 几乎占全球所有搜索量的1/3, 而且这一数字还在不断上升。
Google的特色
1)将中、英文搜索整合于同一界面,是收集亚洲网站最多的搜索引擎之一。
2)可检索可移植文档(PDF)和PowerPoint格式(PPT)等10多种文件类型。
3)独特的“网页快照”将用户浏览过的网页贮存在服务器上,并用不同颜色突出显示检索词。