抖音带货的兴起,让抖音电商一跃成为与淘宝电商、京东电商等电商平台共同争夺电商市场的存在,与淘宝电商、京东电商等电商平台相比,抖音电商拥有独特的优势,抖音以短视频的形式能够带来巨大的流量和热度,抖音以此为基础带来全新的带货方式——短视频带货,除此之外,抖音因其高流量高热度的基础,使得开展直播带货的途径顺其自然了许多。在此背景之下,抖音电商的商品销售数据的获取和总结分析归纳对于抖音电商调整当前销售结构和形式以及对未来的规划有着重大意义。
除此之外,也给一些想要简单爬取一些抖音商品销售数据的同学们一个便捷易懂的方法。
由于通过抖音页面对商品销售数据进行爬取过于繁琐,工作量大,因此决定通过对蝉妈妈数据平台(拥有抖音商品销售数据的各大榜单)进行抖音商品销售数据的获取,又因想要通过蝉妈妈数据平台直接进行数据的获取所需要的成本和花销太大,因此决定通过以爬虫的形式对蝉妈妈数据平台的各大抖音商品销售数据榜单进行数据爬取,由新人注册蝉妈妈数据平台都会获得免费的会员时间,但免费的会员只能够查看数据,并不能对数据的直接导出,因此可以通过免费的会员使用爬虫对各大榜单数据进行爬取。
打开蝉妈妈数据平台以后,选择一个销售榜单,本文以直播带货的榜单为例,后续的网页下载、数据解析、数据存储和数据预处理都以直播带货榜单开展,其他榜单的相关处理与直播带货榜单相差不大,所以就以直播带货榜单为例,爬取方法以selenium自动化库为主。
查看网页源代码以后,简单知道每一条直播带货的数据都存储在标签中,因此我们便可得知,只要抓取所有的标签,再对所有的标签进行处理,对每一个标签里的数据进行分割读取(每一个标签内含有的便是每一条直播带货数据:直播销量、直播销售额等),就能得到每一条直播带货数据。
上图可知一条直播销售具体数据存储在标签中的每一个标签中。
因此只要获取每个标签,再从每个标签中逐一分析所含具体商品销售数据,即可获得预计要得到的内容。
由于为了应对反爬机制,本爬虫主要使用了selenium自动化模块,因此网页下载部分没有一个单独的模块用来进行网页下载,因此也就没有ip代理池、headers、cookies的设置,所有就只有一行代码进行网页的下载(selenium.webdriver中自带的网页下载方法)
根据上述的网页源代码分析,对每一个标签进行解析,对要得到的每一个商品特征信息进行查看,对其html位置进行解析,便可得到以下代码。
数据解析单独建立一个模块。解析过程中使用bs解析器。
数据存储部分也单独建立一个模块。
主程序运行,将数据解析和数据存储模块导入。
本文地址:http://lianchengexpo.xrbh.cn/quote/10499.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多