随着信息时代的发展和编程技术的普及,搜索引擎成为了人们日常生活中的必须品。搜索引擎大多使用爬虫技术作为核心模块,通过关键词返回用户查询的结果。但是网络信息呈现爆炸式的增长,使得信息的查找和定位也变得困难。针对上述问题,本文以Python和Scrapy环境为基础,以“新浪微博”为爬取对象,在学习并分析当前爬虫技术的原理、核心模块以及运行流程的基础上,探索性地实现一个基于Scrapy框架的网络爬虫,完成数据抓取等目标。首先,本文简明给出了爬虫技术的原理和发展现状,介绍爬虫工程中一些关键技术,并着重介绍了在本研究中有深刻影响的cookie和Robot协议。其次,通过使用基于Python语言开发的Scrapy开源爬虫框架来进行爬虫开发,指出了Mongo DB为代表的No Sql数据库在元数据存储中的巨大作用。详细介绍了Scrapy开发爬虫的流程和实现细节。再次,讨论了对于爬虫设计领域的关键问题,本文实现的自定义爬虫的解决方法。采用了更换cookie和user-agent欺骗来突破站点限制。而URL去重和多线程并发的问题,则采用并分析Scrapy自带的解决方案。最后对爬虫进行测试并展示成果,思考存在的问题和改进的可能。
本文地址:http://lianchengexpo.xrbh.cn/news/11502.html
迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多