目录
前言
下面我就分享一下这次经历!
1、编程环境及相关库的安装
1.1、编程环境:
1.2、第三方库:
1.3库的安装方法:
1.3.1、Windows的shell命令安装
1.3.2、在编程环境内安装
2、如何通过爬虫获取粉丝数据
2.1、获取自己待爬的URI
2.1.1、到这个界面,然后右键检查
2.1.2、红色圈住的便是待爬的URL
2.1.3、记录下"请求URL"和"User-agent"在两个重要的待爬信息
2.2、采用requests获取粉丝数据
2.3粉丝数据的组成
2.3.1粉丝数据标签的解释
2.3.2重点要分析的数据
3、如何合理的分析这些数据
3.1、把各个分页的数据合并
3.2、数据预处理,数据信息查看
3.3、数据的清洗和预处理等步骤
3.4、数据提取和筛选
3.5数据处理
3.6数据存储
4、分析粉丝数据得到的结论
最近参加了新星计划,在各位老哥们的帮助下成功上了一次热榜。一夜之间涨了600多的粉。但是这些粉丝全部都是通过用户推荐界面加我的。我就特别好奇我现有粉丝的用户画像(数据分析名词),于是就打算通过python爬一下我这600多粉丝的码龄和用户名以及是不是VIP这三项信息。最后竟然发现了。。。好奇就好好学一下吧。下图是博主近7天内的粉丝数据。关注一下我吧,拜托了,看在我这次这么有诚意的份上。。
(1)requests:爬虫爬数据需要用到的库,其他库也可以实现,如Urllib3、urllib等等
(2)numpy:爬虫得到的数据是一个元组,使用numpy来处理数据比较方便
(3)matplotlib:数据可视化需要用到的库
(4)os:读取和保存过程中产生的数据需要用到的库
(5)pandas: Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
我个人推荐第二种方法
1.3.1、Windows的shell命令安装
(1)打开命令窗口
(2)输入该命令,并按下enter ,pip install -i https://pypi.tuna.tsinghua.edu.cn/simple patsy[注:simple后面加需要安装的库]
1.3.2、在编程环境内安装
(1)文件--》设置--》项目--》Project Interpreter,如下图所示:
(2)点击+号,跳出下面这个窗口,在搜索栏直接搜索就行了,如果出现”Error updating package list: Status: 404“的错误提示,看第四步,如果没有错误看第三步。
(3)以requests库为例子,搜索可得requests的信息,然后直接点击Install Package进行下载安装即可。
(4)点击第二步图里面的Manage Repositories按钮,出现如下界面,点击加号输入https://pypi.tuna.tsinghua.edu.cn/simple/,然后点击确认即可,之后在按照第三步安装所需的库。
2.1.1、到这个界面,然后右键检查
2.1.2、红色圈住的便是待爬的URL
2.1.3、记录下"请求URL"和"User-agent"在两个重要的待爬信息
我们上面得到的待爬URL为:https://blog.csdn.net//phoenix/web/v1/fans/list?page=1&pageSize=40&blogUsername=qq_45049500,注意这只是我粉丝数据的第一页,不是索引的粉丝数据,比如粉丝数据一共有500页,那么待爬的URL便有500个。这里放一下爬虫的流程有兴趣的可以看一下。
这是一个简单的爬虫代码,获取了10页粉丝数据,我下面分析一下粉丝数据的组成。
2.3.1粉丝数据标签的解释
一共12个类别:
2.3.2重点要分析的数据
上面红颜色的那几个标签
我写了很多数据处理的库函数现象就不都展示出来了,不然太多了,只放个可视化的吧
使用requesys爬虫获取数据并把数据然后使用pandas和join把各个分页的数据合并到一起,即"XXX.csv"类型的文件方便我们处理.csdn粉丝数据一个网页里面有40个粉丝数据,我目前一共726个粉,所以待爬的URL一共有不满20页,按照20页来计算了。
分页数据的合并我使用了pandas自带的concat()函数,我这里就不在科普了。
具体如下:df1=pd.concat([df1,df],ignore_index="ture")
目的:了解数据的概况,例如整个数据表的大小、所占空间、数据格式、是否有空值和重复项,为后面的清洗和预处理做准备。上面的df1里面已经包含了所有我们所需的数据,接下来就开始具体处理数据了。
对清洗完的数据进行预处理整理以便后期的统计和分析工作。
-
数据提取:使用loc和iloc配合相关函数。
-
筛选:使用与,或,非三个条件配合大于,小于和等于对数据进行筛选
我的粉丝大多都是属于新用户,并且码零不超过两年,基本应该属于小白那种,但是我们都要有一个从零到一的一个过程,希望关注我可以给你带来一定的帮助。终于等到你了,一起加油,未来属于我们这些努力提升自己的人!!!还是关注我的时候自动回复的那句话:终于等到你了,一起加油,未来属于我们这些努力提升自己的人!!!我不会让你白关注我的,一起加油。
本文地址:http://lianchengexpo.xrbh.cn/quote/10314.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多