本文主要向大家介绍了机器学习入门之kaggle之数据分析从业者用户画像分析,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。
数据为kaggle社区发布的数据分析从业者问卷调查分析报告,其中涵盖了关于该行业不同维度的问题及调查结果。本文的目的为提取有用的数据,进行描述性展示。帮助新从业的人员更全方位地了解这个行业。
变量说明
数据中包含228个变量,提取其中的一些较有价值的变量进行描述性分析
数据处理
survey
class(survey)
table(survey$Country) #统计每个国家参与人数
查看国家时,发现国家中中国被切分成共和国,民国,台湾,此处自行统一为中国
#将大陆,中华民国,台湾统一为中国
survey$Country
| survey$Country==‘Republic of China‘
| survey$Country==‘Taiwan‘
,‘China‘,survey$Country)
数据描述性展示
探索数据从业者中年龄最小(中位数)的十个国家
#将数据按国家分类,并求年龄的中位数
Country_age % group_by(Country) %>%
summarise(Age_median=median(Age,na.rm = T)) %>%
arrange(Age_median)
head(Country_age)
#绘图,探索数据科学从业者年龄中位数最小的十个国家
本文地址:http://lianchengexpo.xrbh.cn/quote/9946.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多