推广 热搜:   公司  快速  企业  中国  设备    上海  行业  未来 

使用python根据关键词批量获取Nature文章信息

   日期:2024-10-31     移动:http://keant.xrbh.cn/quote/10523.html

今天介绍一下如何使用python来获取Nature官网的文章信息,流程还是和之前的爬虫教程基本一致。

使用python根据关键词批量获取Nature文章信息

首先我们打开Nature期刊的官网,网址为:https://www.nature.com/

然后我们点击官网右上角的search,输入我们想要文章信息的关键词。

我们以Genetic diversity(遗传多样性)为例做测试。

1.分析目标网址

点击搜索按钮,会出现文章相关信息。

这时我们发现网址为:

https://www.nature.com/search?q=Genetic%20diversity&order=relevance

点击第二页网址为:

https://www.nature.com/search?q=Genetic+diversity&order=relevance&page=2

要获取下一页只需要将数字2改为3,使用其他关键词可以将q后面的内容进行修改。

2. 模拟浏览器发送请求,获取响应内容

这次我们使用python的xpath语法进行网页内容解析.

导入相关包:

构造请求头

使用requests库模拟浏览器发送请求

3.解析网页内容

使用谷歌浏览器检查发现每个文章信息都放在每个li标签内。

通过逐步解析发现各个字段的xpath位置并逐个解析并打印出来:

字段类型有文章题目,文章链接,文章类型,是否开放获取,日期,发表期刊名称

4.将文章信息保存为csv格式

打印数据详情

获取多页可使用for循环遍历。

整理数据后:

本文地址:http://lianchengexpo.xrbh.cn/quote/10523.html    迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号