要
爬取百度搜索结果,首先需要安装requests和BeautifulSoup库。然后可以按照以下步骤来实现:
1. 构造URL链接:以
搜索关键词“
Python编程”为例,构造URL链接为:https://www.baidu.com/s?wd=
Python编程
2. 发送HTTP请求:使用requests库发送GET请求,
获取百度搜索结果
页面的HTML代码。
3. 解析HTML代码:使用BeautifulSoup库解析HTML代码,提取出
搜索结果的
标题、摘要、链接等信息。
下面是具体的代码实现:
```
Python
im
port requests
from bs4 im
port BeautifulSoup
url =
'https://www.baidu.com/s
'
params = {
'wd
':
'
Python编程
'}
headers = {
'User-Agent
':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3
'}
respo
nse = requests.get(url, params=params, headers=headers)
soup = BeautifulSoup(response.text,
'html.parser
')
results = soup.find_all(
'div
', class_=
'result c-co
ntainer
')
for result in results:
title = result.h3.a.text.strip()
summary = result.find(
'div
', class_=
'c-abstract
').text.strip()
l
ink = result.h3.a[
'href
']
print(title)
print(summary)
print(l
ink)
本文地址:http://lianchengexpo.xrbh.cn/quote/12999.html
迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多