1.使用谷歌自动义搜索。但谷歌咱访问不了。
2.但有些人能访问,VPN或在国外等,这些网盘搜索引擎有钱搞,那我就采集他们网站的。通过爬虫爬各大网盘搜索引擎。
3.通过爬虫爬其它大量分享的。
下面就来试试
1.获得搜索关键词:通过百度风云排行榜获得,还可以通过各大网盘搜索引擎的首页获得。
2.各大网盘搜索引擎为了SEO,一般加几个子网面。但都有固定的结构,这样就好办了。
3.通过最终网盘链接页提取数据。文件名,链接,文件大小,文件类型,分享时间,是否有效等
倒着来说
一.通过最终网盘链接页提取数据。
1.提取:文件名
要采集的示例:https://pan.baidu.com/share/link?uk=2433762860&shareid=2999758878
源码:右键查看源码
文件名name 正则表达式:<title>(?<name>.*)_免费高速下载|百度网盘-分享无限制</title>
说明链接是有效的。
发现源码里没有文件大小,那应该是动态获得的。百度网盘10万次每天就会封IP,第二天也不能访问。
二.通过倒数第二链接页提取数据。
1.提取:文件名
示例:http://www.pansoso.com/?a=url&u=aHR0cDovL3Bhbi5iYWlkdS5jb20vc2hhcmUvbGluaz91az01OTAyMDczODcmc2hhcmVpZD0zMTYxNDEyMjc2&t=MzYw5rqQ56CBLnppcA==&s=5rqQ56CB
正则表达式:(?<=<title>).*?(?=下载_网盘下载_盘搜搜</title>)
结果:360源码.zip
2.提取:文件链接
示例:view-source:http://www.pansoso.com/?a=url&u=aHR0cDovL3Bhbi5iYWlkdS5jb20vc2hhcmUvbGluaz91az01OTAyMDczODcmc2hhcmVpZD0zMTYxNDEyMjc2&t=MzYw5rqQ56CBLnppcA==&s=5rqQ56CB
正则表达式:(?<=href=")(http|https)://(pan|yun).baidu.com/.*?(?=")
结果:http://pan.baidu.com/share/link?uk=590207387&shareid=3161412276
三.通过搜索结果页提取数据。http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
<div class="des">文件名:[动画]灵.域5 , 文件大小:1KB , 分享时间:2017-10-31 , 下载次数:3次 ... 登录百度云网盘客户端下载送2T空间 电脑版</div>
<a href="/?a=url&u=aHR0cHM6Ly9wYW4uYmFpZHUuY29tL3NoYXJlL2xpbms@c2hhcmVpZD0zNzU0NTIyMzQmdWs9MzQxMTA2OTc2OQ==&t=W!WKqOeUu13ngbUu5Z!fNQ==&s=54G15Z!f" target="_blank" rel="nofollow" id="pss-8cfbeff2">[动画]灵.域5</a>
1.提取:文件名
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=文件名:).*?(?= ,) 某某之后,非换行,尽可能少,某某之前
结果:[动画]灵.域5
2.提取:通向文件地址的链接
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:/?a=url.*?(?=")
结果:a=url&u=aHR0cHM6Ly9wYW4uYmFpZHUuY29tL3NoYXJlL2xpbms@c2hhcmVpZD0zNzU0NTIyMzQmdWs9MzQxMTA2OTc2OQ==&t=W!WKqOeUu13ngbUu5Z!fNQ==&s=54G15Z!f
3.提取:文件大小
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=文件大小:).*?(?= ,)
结果:1KB
4.提取:分享时间
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=分享时间:).*?(?= ,)
结果:2017-10-31
5.提取:下载次数
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=下载次数:).*?(?=次)
结果:3