网盘搜索引擎是近年来非常流行的工具,最近在知乎上看到不上关于网盘引擎的帖子,笔者今天决定对网盘搜索引擎原理,技术做个大揭秘,一方面是对不熟悉搜索引擎原理的朋友做个答疑,二是指出各种引擎的优缺点以让朋友们今后在选择你钟爱的引擎时能够心中有数。
目前国内外网盘搜索引擎实现原理大体就两种——爬虫程序爬取数据供搜索,调用google,bing三方接口搜索。前者的典型代表如比较流行的去转盘网,盘搜搜…后者的典型代表如胖浩子,西林街等。
然而现在调用google API接口搜不到任何关于网盘的东西了,估计是实施了封锁。
笔者先从技术比较复杂的有自己爬虫程序的网盘搜索引擎说起,拿做的比较好的去转盘网为例:
去转盘 支持百度网盘,360网盘,电驴,旋风等主流下载方式,界面方块话,简洁有力,提供用户分享功能,正努力成长为业界一流。
该引擎的数据是通过爬虫程序爬取百度网盘,然后将数据存储到数据库中,索引然后供用户搜索。笔者关注这个站比较久了,broom团队最近也公开了去转盘网的很多技术,也正如笔者所说。以下是我在知乎上看到的两篇相关博客,懂技术的可以看看,不懂技术的朋友跳过即可。
- python爬虫之爬百度网盘开源
- Lucene+Jave 中文分词,代码直接可用
前者正是他们的爬虫程序,后者就是我所说的索引程序。
以前百度提供用户列表API,这样爬起来比较容易,然而现在不行了,因为百度关闭了用户列表API,而且反爬机制更加严格了,如果要爬的话需要购买代理IP了。
该类站的优点:搜索速度快,资源较新;缺点:死链多,资源少;
接下来说说调用第三方接口的引擎,这回拿大家都比较熟悉的西林街为例
胖浩子网盘搜索引擎,界面简洁清新,搜索结果多,自动检测死链
该引擎的技术比较简单,对计算机稍有了解的朋友都可以做,他的原理是展示网站先去google申请搜索引擎接口(需要翻墙),当用户将搜索内容提交给展示网站后,展示网站又将搜索内容提交给google引擎,google引擎搜索之后把数据返回给展示网站。国内做这种网站都需要一个翻墙空间,数据从中国跑到美国搜好又回到中国,这也就是为什么这类引擎用起来有延迟感的原因。
本文地址:http://lianchengexpo.xrbh.cn/quote/6563.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多