推广 热搜: 公司  快速  上海  中国  未来    企业  政策  教师  系统 

scrapy 搜索关键字_搜索引擎抓取原理 文本入库检索过程

   日期:2024-10-31     作者:caijiyuan    caijiyuan   评论:0    移动:http://keant.xrbh.cn/news/11897.html
核心提示:搜索引擎的搜索展现大部分为排序、索引、抓取三个步骤,其实原理十分复杂, 在处理过程中需要进行抓取信息去除重复

搜索引擎的搜索展现大部分为排序、索引、抓取三个步骤,其实原理十分复杂, 在处理过程中需要进行抓取信息去除重复、中文分词处理、关键词内容对比、页面链接关系、消除噪音、建立索引、搜索展现等,关于这些下面作详细介绍。

scrapy 搜索关键字_搜索引擎抓取原理 文本入库检索过程

搜索引擎优化基本工作原理

1、抓取

搜索引擎会抛出一种被称作“机器人,蜘蛛”的软件根据一定的规则扫描互联网上面的网站,沿着网页的链接从一个网页到另一个网页,从一个网站到另一个网站,获得页面HTML代码,并存入数据库。为了采集到最新的资料,会继续回访已抓取过的网页。

2、索引

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度,然后用这些相关信息建立网页索引数据库。

3、排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后返回给用户。

搜索引擎的工作原理大体分为3步:爬行抓取——索引——排序。

抓取:主要是数据收集。

索引/预处理:提取文字——中文分词——去除停止词——消除噪声——去重——索引。

排序:搜索词处理——匹配文件——初始子集选择——相关性计算——过滤、调整——排名显示。

搜索引擎优化检索过程

1、抓取信息去除重复

搜索引擎优化的工作原理中蜘蛛在抓取信息后会在数据库里进行一个剔除杂质的过程,如果你的文章被蜘蛛抓取到,类容和别人的雷同那么蜘蛛就会觉得你这个类容是没有价值的就会很容易丢弃。会有很多的停止词比如:的、地、得、啊、吗、之类词。

2、中文分词(切词)处理

搜索引擎会根据自己的字典词库进行切词,把你的标题以及内容切分很多的关键词。所以网站建设公司在创建内容的时候一定要在标题和内容里面包含关键词。

3、提取网站的关键词对比你的页面内容

计算页面的关键词密度是否合理,如果密度比较稀疏,说明你的关键词和内容的匹配度不高,那么关键词一般没有好的排名,你也不能再页面里面刻意的去堆积页面的关键词,导致密度很高,那么搜索引擎会认为你在作弊,单纯想考堆积关键词的方法来做排名,这样的手段很容易遭到搜索引擎的惩罚。

4、计算页面的链接关系

搜索引擎优化的工作原理中所谓的页面的链接关系,指的是你网站的导出链接和导入链接的计算。所谓的导出链接指的是你网站上面挂了指向其他网站的链接叫做导出链接。导入链接,一个页面的导入链接越多相对来说这个页面得分越高,越利于网站的页面的排名。导出链接越多,页面的得分越低,不利于页面的排名。

5、消除噪音处理

搜索引擎优化的工作原理中所谓的噪音指的是网页上面的很多的弹窗的广告。不相关的垃圾页面。如果网站挂了很多的弹窗广告百度会认为你的网站严重的影响了用户体验,对于这些网站百度是严厉打击的,不会给你好的排名。百度出的冰桶算法打击页面广告的网站。

本文地址:http://lianchengexpo.xrbh.cn/news/11897.html    迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多
 
标签: 搜索引擎
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号