推广 热搜:   公司  快速  企业  中国  设备    上海  行业  未来 

用爬虫分析上热榜涨的600粉,竟发现。。。(含代码和详解)

   日期:2024-10-31     移动:http://keant.xrbh.cn/quote/10314.html

 

用爬虫分析上热榜涨的600粉,竟发现。。。(含代码和详解)

目录

 

前言

下面我就分享一下这次经历

1、编程环境及相关库的安装

1.1、编程环境

1.2、第三方库

1.3库的安装方法

     1.3.1、Windows的shell命令安装

     1.3.2、在编程环境内安装

2、如何通过爬虫获取粉丝数据

2.1、获取自己待爬的URI

2.1.1、到这个界面,然后右键检查

2.1.2、红色圈住的便是待爬的URL​

2.1.3、记录下"请求URL"和"User-agent"在两个重要的待爬信息​

2.2、采用requests获取粉丝数据

2.3粉丝数据的组成

2.3.1粉丝数据标签的解释

2.3.2重点要分析的数据

3、如何合理的分析这些数据

3.1、把各个分页的数据合并

3.2、数据预处理,数据信息查看

3.3、数据的清洗和预处理等步骤

3.4、数据提取和筛选

3.5数据处理 

3.6数据存储

4、分析粉丝数据得到的结论


最近参加了新星计划,在各位老哥们的帮助下成功上了一次热榜。一夜之间涨了600多的粉。但是这些粉丝全部都是通过用户推荐界面加我的。我就特别好奇我现有粉丝的用户画像(数据分析名词,于是就打算通过python爬一下我这600多粉丝的码龄和用户名以及是不是VIP这三项信息。最后竟然发现了。。。好奇就好好学一下吧。下图是博主近7天内的粉丝数据。关注一下我吧,拜托了,看在我这次这么有诚意的份上。。

博主近七天内的粉丝数据

(1)requests:爬虫爬数据需要用到的库,其他库也可以实现,如Urllib3、urllib等等

(2)numpy:爬虫得到的数据是一个元组,使用numpy来处理数据比较方便

(3)matplotlib:数据可视化需要用到的库

(4)os:读取和保存过程中产生的数据需要用到的库

(5)pandas: Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算;用于数据挖掘和数据分析,同时也提供数据清洗功能。

我个人推荐第二种方法

     1.3.1、Windows的shell命令安装

 (1)打开命令窗口

 (2)输入该命令,并按下enter  ,pip install -i https://pypi.tuna.tsinghua.edu.cn/simple patsy[注:simple后面加需要安装的库]

     1.3.2、在编程环境内安装

     (1)文件--》设置--》项目--》Project Interpreter,如下图所示

(2)点击+号,跳出下面这个窗口,在搜索栏直接搜索就行了,如果出现”Error updating package list: Status: 404“的错误提示,看第四步,如果没有错误看第三步。

(3)以requests库为例子,搜索可得requests的信息,然后直接点击Install Package进行下载安装即可。

(4)点击第二步图里面的Manage Repositories按钮,出现如下界面,点击加号输入https://pypi.tuna.tsinghua.edu.cn/simple/,然后点击确认即可,之后在按照第三步安装所需的库。

2.1.1、到这个界面,然后右键检查

2.1.2、红色圈住的便是待爬的URL

2.1.3、记录下"请求URL"和"User-agent"在两个重要的待爬信息

 

我们上面得到的待爬URL为:https://blog.csdn.net//phoenix/web/v1/fans/list?page=1&pageSize=40&blogUsername=qq_45049500,注意这只是我粉丝数据的第一页,不是索引的粉丝数据,比如粉丝数据一共有500页,那么待爬的URL便有500个。这里放一下爬虫的流程有兴趣的可以看一下。

这是一个简单的爬虫代码,获取了10页粉丝数据,我下面分析一下粉丝数据的组成。

2.3.1粉丝数据标签的解释

一共12个类别

 用户名 
 用户昵称 
 用户头像 
 不清楚,感觉没啥用 
 该粉丝的博客网址 
 用户年限,小于1年为零 
 是不是VIP 
 VIP图标 
 是不是企业专家 
 企业专家图标 
 是不是专家 
 专家图标

2.3.2重点要分析的数据

 上面红颜色的那几个标签

我写了很多数据处理的库函数现象就不都展示出来了,不然太多了,只放个可视化的吧

使用requesys爬虫获取数据并把数据然后使用pandas和join把各个分页的数据合并到一起,即"XXX.csv"类型的文件方便我们处理.csdn粉丝数据一个网页里面有40个粉丝数据,我目前一共726个粉,所以待爬的URL一共有不满20页,按照20页来计算了。

分页数据的合并我使用了pandas自带的concat()函数,我这里就不在科普了。

具体如下:df1=pd.concat([df1,df],ignore_index="ture")

目的:了解数据的概况,例如整个数据表的大小、所占空间、数据格式、是否有空值和重复项,为后面的清洗和预处理做准备。上面的df1里面已经包含了所有我们所需的数据,接下来就开始具体处理数据了。

对清洗完的数据进行预处理整理以便后期的统计和分析工作。

  • 数据提取:使用loc和iloc配合相关函数。

  • 筛选:使用与,或,非三个条件配合大于,小于和等于对数据进行筛选

  •  

我的粉丝大多都是属于新用户,并且码零不超过两年,基本应该属于小白那种,但是我们都要有一个从零到一的一个过程,希望关注我可以给你带来一定的帮助。终于等到你了,一起加油,未来属于我们这些努力提升自己的人!还是关注我的时候自动回复的那句话终于等到你了,一起加油,未来属于我们这些努力提升自己的人我不会让你白关注我的,一起加油。

本文地址:http://lianchengexpo.xrbh.cn/quote/10314.html    迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号