推广 热搜: 公司  快速  上海  中国  未来    企业  政策  教师  系统 

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

   日期:2024-11-19     作者:caijiyuan    caijiyuan   评论:0    移动:http://keant.xrbh.cn/news/14704.html
核心提示:现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去

现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导,让我们一起学习成长

 

在实际的使用过程中,到底使用 BeautifulSoup 还是 XPath,完全取决于个人喜好,哪个用起来更加熟练方便,就使用哪个。

爬虫实战:爬取豆瓣海报

我们可以从豆瓣影人页,进入都影人对应的影人图片页面,比如以刘涛为例子,她的影人图片页面地址为

  • [https://movie.douban.com/celebrity/1011562/photos/] Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据 下面我们就来分析下这个网页
目标网站页面分析

注意:网络上的网站页面构成总是会变化的,所以这里你需要学会分析的方法,以此类推到其他网站。正所谓授人以鱼不如授人以渔,就是这个原因。

Chrome 开发者工具

Chrome 开发者工具(按 F12 打开),是分析网页的绝佳利器,一定要好好使用。

我们在任意一张图片上右击鼠标,选择“检查”,可以看到同样打开了“开发者工具”,而且自动定位到了该图片所在的位置 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据 可以清晰的看到,每张图片都是保存在 li 标签中的,图片的地址保存在 li 标签中的 img 中。

知道了这些规律后,我们就可以通过 BeautifulSoup 或者 XPath 来解析 HTML 页面,从而获取其中的图片地址。

代码编写

我们只需要短短的几行代码,就能完成图片 url 的提取

 

可以看到,是非常干净的列表,里面存储了海报地址。

但是这里也只是一页海报的数据,我们观察页面发现它有好多分页,如何处理分页呢。 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

分页处理

我们点击第二页,看看浏览器 url 的变化

  • https://movie.douban.com/celebrity/1011562/photos/?type=C&start=30&sortby=like&size=a&subtype=a

发现浏览器 url 增加了几个参数

再点击第三页,继续观察 url

  • https://movie.douban.com/celebrity/1011562/photos/?type=C&start=60&sortby=like&size=a&subtype=a

通过观察可知,这里的参数,只有 start 是变化的,即为变量,其余参数都可以按照常理来处理

同时还可以知道,这个 start 参数应该是起到了类似于 page 的作用,start = 30 是第二页,start = 60 是第三页,依次类推,最后一页是 start = 420。

于是我们处理分页的代码也呼之欲出了

首先将上面处理 HTML 页面的代码封装成函数

 

然后我们在另一个函数中处理分页和调用上面的函数

 

此时,我们所有的海报数据都保存在了 data 变量中,现在就需要一个下载器来保存海报了

 

再增加下载器到 fire 函数,此时为了不是请求过于频繁而影响豆瓣网的正常访问,设置 sleep time 为1秒

 

下面就执行 fire 函数,等待程序运行完成后,当前目录下会生成一个 picture 的文件夹,里面保存了我们下载的所有海报 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

核心代码讲解

下面再来看下完整的代码

 
fire 函数

这是一个主执行函数,使用 range 函数来处理分页。

  • range 函数可以快速的创建整数列表,在 for 循环时及其好用。函数中的0代表从0开始计数,450代表一直迭代到450,不包含450,30代表步长,即每次递增的数字间隔。range(0, 450, 30),依次会输出:0,30,60,90 …
  • format 函数,是一种字符串格式化方式
  • time.sleep(1) 即为暂停1秒钟
get_poster_url 函数

这个就是解析 HTML 的函数,使用的是 BeautifulSoup

  • 通过 find_all 方法查找所有 class 为 “cover” 的 div 元素,返回的是一个列表
  • 使用 for 循环,循环上一步拿到的列表,取出 src 的内容,append 到列表中
  • append 是列表的一个方法,可以在列表后面追加元素
download_picture 函数

简易图片下载器

  • 首先判断当前目录下是否存在 picture 文件夹,os.path.exists
  • os 库是非常常用用来操作系统相关的命令库,os.mkdir 就是创建文件夹
  • split 用于切割字符串,取出角标为7的元素,作为存储图片的名称
  • with 方法用来快速打开文件,打开的进程可以自行关闭文件句柄,而不再需要手动执行 f.close() 关闭文件
总结

本节讲解了爬虫的基本流程以及需要用到的 Python 库和方法,并通过一个实际的例子完成了从分析网页,到数据存储的全过程。其实爬虫,无外乎模拟请求,解析数据,保存数据。

当然有的时候,网站还会设置各种反爬机制,比如 cookie 校验,请求频度检查,非浏览器访问限制,JS 混淆等等,这个时候就需要用到反反爬技术了,比如抓取 cookie 放到 headers 中,使用代理 IP 访问,使用 Selenium 模拟浏览器等待方式。

最后

在学习python中有任何困难不懂的可以微信扫描下方CSDN官方认证二维码加入python交流学习 多多交流问题,互帮互助,这里有不错的学习教程和开发工具。

👉[[CSDN大礼包:《python安装包&全套学习资料》免费分享]]安全链接,放心点击

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

二、Python必备开发工具

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

四、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

三、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

本文地址:http://lianchengexpo.xrbh.cn/news/14704.html    迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多
 
标签: 入门教程 页数
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号