搜索引擎是指根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户提供检索服务的系统
- 从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入的词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回和用户输入内容相关的信息列表
- 搜索引擎并不是真正的搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的的搜索引擎,通常是指收集了互联网几千万到几十亿个网页并对网页中的每一个关键词进行索引,建立索引数据库的全文搜索引擎。当用户查找某一个关键词的时候,所有的界面内容中包含了该关键词的网页都将作为搜索结果被搜出来,在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
可以分为四步:
- 从互联网抓取网页
- 建立索引数据库
- 在索引数据库中搜索排序
- 对搜索结果进行处理和排序
搜索引擎至今已经经历了三个发展阶段:
- 第一代搜索引擎出现于1994年,主要特征为集中式检索。这类搜索引擎一般检索少于100万个网页,极少重新搜索网页并去刷新索引,而且其检索速度非常慢。
- 第二代搜索引擎出现于1996年,大多采用分布式检索方案,即多个微型计算机协同工作来提高数据规模,响应速度和用户数量。它们一般都保持一个大约5000万网页的索引数据库,每天响应1000万次的用户索引请求
- 第三代搜索引擎出现于1998到2000年之间,第三代搜索引擎的特点:
- 索引数据库的规模继续增大,一般商业的搜索引擎都保持在几千万甚至上亿个网页
- 除了一般意义上的搜索以外,开始出现主题搜索和地域搜索,很多小型的垂直门户站点开始使用这种技术
- 由于搜索返回的数据量过大,检索结果相关度评价成为研究的焦点
搜索引擎的发展趋势主要包括以下几个方面:
- 自然语言检索技术
- 目录与关键词检索相结合
- 智能化与个性化检索技术
- 多媒体检索技术
- 本地化检索技术
- 交叉语言检索技术
- 分布式检索技术
- 检索结果处理技术
1.4.1 针对检索结果技术的搜索引擎:
- 纯净搜索引擎:没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念,技术和机制等;
- 元搜索引擎:将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将搜索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称,主要关注提高搜索速度,智能化处理搜索结果,个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高
- 集成搜索引擎:又称“多引擎同步检索系统”,是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,用起来相当方便
多引擎同步检索系统无自建数据库,不需研发支持技术,也不能控制和优化检索结果。但多引擎同步检索系统制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新
-
垂直搜索引擎:相对通用的搜索引擎的信息量大,查询不准确,深度不够等提出的新的搜索引擎服务模式,通过针对某一特定领域,某一特定人群,某一特定需求提供的有一定价值的信息和相关服务
1.全文搜索引擎:是名副其实的搜索引擎,代表性的搜索引擎有Google,百度等。原理就是上文提到的搜索引擎的原理。
- 优点:有全文搜索,检索能力强,信息更新速度快等
- 缺点:提供的信息多但是不全,可供选择信息过多导致命中率下降,重复过多,层次结构不清晰,繁多杂乱
2.目录索引搜索引擎:不是真正意义上的的搜索引擎,仅仅是按目录分类的网站链接列表而已,用户完全可以不用进行关键词查询,仅靠分类目录也能找到需要的信息,代表:雅虎,新浪,搜狐,网易
- 优点:层次结构清晰,易于查找;多级类目,便于查询到具体明确的主题;内容提要,分类目录一目了然
- 缺点:搜索范围较小,更新速度慢,查询交叉类目时容易遗漏
3.元搜索引擎:同上文
1.非主流形式:
- 集合式搜索引擎
- 门户搜索引擎
- 免费链接搜索引擎
2.功能:
- 网页搜索功能
- 网站搜索功能
- 图片搜索功能
- 新闻搜索功能
- 字典搜索功能
- 功能搜索功能
4.分布式搜索引擎:按区域,主题或其他标准创建分布式索引服务器,索引之间相互可以交换中间信息,且查询可以被重定向
1.信息收集和存储技术
2.信息预处理技术
- 关键词提取
- 重复或转载网页的消除
- 链接分析
- 网页重要程度计算
3.信息检索技术
- 信息语词切分和语词词法分析
- 进行词性标注及相关的自然语言处理
- 建立检索项索引
- 检索结果处理技术