浅析百度指数数据

日期：2024-10-31 移动：http://keant.xrbh.cn/quote/7809.html

姓名：周君会学号：17011210526

浅析百度指数数据

转载自：

https://www.zhihu.com/question/19856327/answer/14263215

【嵌牛导读】：如今，互联网如火如荼地大力发展，许多东西都可通过百度一下得到。

【嵌牛鼻子】：我们的生活已经离不开百度，各种各样的答案都可通过百度得到，单就百度指数这一方面，我们可以简单的获取个人信息里的姓名年龄学历性别等信息。

【嵌牛提问】：但是，百度里的个人信息如姓名年龄学历性别这些都是如何获取的呢？

【嵌牛正文】：

我虽然收到邀请但开始还不自信回答这个问题，准备沉默，

但看到有错误答案和赞同错误答案的行为，我觉得还把我了解的一点浅显的信息和理解分享出来，抛砖引玉。

百度指数和alexa得到的关于用户群的年龄、性别、学历、职业等这些数据，其实都是数据分析和数据挖掘出来的结果，这个是非常复杂的统计学和数据分析算法得到的相对性的结论（事实上准确性并不高，但可以看到一个群体属性的趋势）。

那么我们会想那么他们所需的元数据从哪来呢？

其实也很简单，百度、谷歌都从各种渠道（主要是cookies数据跟踪，ip记录，以及搜索记录和工具条收集、包括一些其他关联产品搜藏、gmail、网站统计、浏览器、输入法等）收集用户数据和用户操作行为，alexa就简单的多，就是工具条。

那么所需的元数据包含哪些呢？

比如百度、谷歌：

用户搜索了哪些关键字、所在地区的IP、上了哪些网站、停留时间、退出率、甚至各种转化行为监控。

比如alexa就简单的多了，所以它得到的数据也简单的多，它主要监控用户上了哪些网站，所在地区IP就差不多了。

那怎么分析呢？

比如你经常上哪类网站，这个用户群比如经常搜索QQ表情、非主流、最炫民族风mp3、猫和老鼠动画片、蜡笔小新、高考等一个庞大的关键词、上QQ空间、人人网、上百度贴吧等基本可以对应怎样的用户模型，包括年龄、学历、职业等。

比如你经常搜索股票、汽车、单反、VC、时代周刊、财经、上BBC、上纽约时报网站等又可以对应怎样的用户模型。

比如你经常搜索敏捷开发、ruby、html5、app开发、photoshop、产品设计、SEO、ppc、上知乎、上csdn等又对应怎样的用户模型。

这样基本可以通过统计学分析，得出某人的相关属性，然后根据大量的用户集群，得出该用户集群的属性。

这个可以先建立模型然后把相关行为和模型对应，然后进行规模化统计归纳。

而我们做产品需求分析的时候也会根据搜集的信息来归纳我们的潜在用户群的属性，并针对性进行产品开发和理解，而它们更类似翻过来操作。

比如一个简单的用户模型：

用户行为肯定具备很多广泛性，但肯定会有更集中的行为，就大致得出该用户基本属性。

事实上我们看到的这些都是最基础的也相对模糊的属性，真正商业应用比这复杂的多，也精确的多，包括Gmail会对你的邮件内容进行邮件正文分析，然后知道你关心哪类人、哪类话题等等，这样就可以对你精准的推送你最感兴趣话题的商业广告和合作内容的推送。

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

推荐行业动态

点击排行