百度旅游预测：旅游大数据预测未来多乎哉？

自打2013年山东省旅游局与百度达成战略合作之日起，就一直琢磨目的地如何利用百度的大数据来获取旅游者的一些相关数据，期间合作推出了“山东省旅游景点排行榜”（http://top.baidu.com/buzz?b=504）这是根据网民的搜索指数对山东境内的A级景区的热度排名，以反映未来一段时间内潜在游客对目的地景区的关注热度。另外，通过对关注省内景区、城市以及山东的网民来源地数据分析，可以大体了解未来省内目的地的客源结构。同时，利用这些数据和省旅游局其他数据（如景区手机流量监测系统）进行交叉对比分析，以期指导目的地的行业预测分析和营销活动。

很早的时候，就和百度的伙计们半开玩笑地说：“百度的大数据应用项目和大数据产品一定在旅游业先开壶。”从目前来看，百度的大数据来源是两个方面：一是网民的广义搜索行为；二是百度的LBS数据，这些数据基本涵盖了游客旅游活动中和外界的信息交互行为，同时旅游业的信息密集、产品固定、移动消费等特点，无疑很大程度上契合了百度大数据的特点。另外，在国内老百姓的经济活动中，旅游的敏感性不是很高，数据出点错误，一是感觉不太明显，二是一般不太较真。比如就是再借百度两个胆，现在也不敢随便搞流感的大数据预测，这个就不是闹着玩的，尽管百度的页面上对“流感预测”注明是“敬请期待”，事关“稳定”，估计得有段时间。

百度涉及旅游的大数据一般可分为三个方面：1、旅游者属性数据（游客来源结构、性别结构、年龄结构等属性信息）；2、旅游者行为数据（游客的意愿、抵达交通、停留、消费等旅游行为信息）；3、旅游者信息获取行为数据（游客在游前游中游后与外界的信息交互数据）。一般而言，虽然旅游者相当一部分的属性数据和行为数据可以通过信息获取行为数据获得，但是对旅游者本身的信息获取行为数据的研究还是处于非常初级的阶段。比如，我们可以了解网民搜索“泰山”关键词的总量、来源结构以及涉及“泰山”LBS相关数据，但是对网民搜索“泰山”这个行为前后的搜索行为关联，预订“泰山”相关旅游产品以前的整个获取信息行为链条，乃至和网民LBS数据的关联性等等，缺乏研究方法和路径。只是见诸于公开资料的是，游客在游前要在百度或者谷歌上搜索旅游信息多少次等。如果在加上游中信息获取行为、跨平台、跨社交媒体等整体信息获取行为的研究，比如游客在百度搜索信息的同时，在微博和微信上的旅游信息获取行为。现在的旅游大数据研究只是冰山上的一角。

涉及旅游的百度大数据应用最早的产品是“百度搜索风云榜”（http://top.baidu.com/），对境内外热点旅游城市和旅游景区按照搜索指数的排名定期发布，对未来旅游者的趋向以及旅游目的地的营销有一定的参考价值。最近由根据游客的LBS数据推出了“旅游城市景区热力图”（http://spotshot.baidu.com/），有媒体声称这个东西不太准，当然琢磨琢磨这个产品的数据来源，智能手机再加上百度地图的相关应用，用它来展现像北京南站以及天安门广场的人群聚集情况，稍微有些不靠谱，也只能有个相关参照。春节期间，百度趁机推出了“百度迁徙图”（http://qianxi.baidu.com/），同时和央视热炒了一把，基于百度LBS的数据显示春节期间人们跨区域的流动情况，虽然描述的是整个流动人口的迁徙情况，在从旅游方面来说，也有一定的参考价值。

当然，最“风光”的是清明节百度推出的“百度旅游预测”（http://trends.baidu.com/），加之央视的推波助澜，很是亮瞎了双眼。较之以前，这次的百度大数据旅游应用最“震撼”的是“预测”，告诉你明天后天泰山上“人多不多”。以前百度的大数据应用着力在于现状描述，即使是“风云榜”也侧重在搜索行为的“现状”上，而“百度预测”是未来。

百度旅游预测官方信息是：“每一天，全中国都有数以百万的互联网用户在利用百度搜索各种旅游相关信息。我们发现，旅游的相关搜索数量随着季节和假节日的时间呈现周期性的上涨和下浮。百度大数据部通过对搜索数据的深度挖掘，已经发现旅游相关词搜索数量和实际旅游人数之间的密切关系，并依此建立了旅游预测模型。通过和北京市旅游委的景点实际人数对比，准确度达到90%以上，可以充分反映各旅游景点未来的人流趋势。

上图展示了百度大数据部故宫旅游人数预测值和北京市旅游委提供的故宫当日实际人数的对比。通过对比，可以看出基于百度大数据预测的故宫旅游人数和当日实际人数的涨幅趋势基本一致。”

先谈谈疑惑。理是这个理，不过洒家心里却打起小鼓，“准确度”是啥意思？是“相关系数”吗？“90%”以上？有那么高吗？这个图是抽取周五、六、日的故宫游客人数来比照的，正常日如何？其他非标志景区也有这个高的相关性？景区日接待人数达到多少就表现出这种很高的相关性？最后是个重点疑问。曾用实际到达景区的手机移动用户来和景区实际接待人数相比较，在旅游淡季日误差个别的5A级景区超过30%。理论上来说，当热门景区在旅游旺季或者节假日期间，搜索量一定和实际接待人数表现出一定的相关性，但如果这种相关性只是覆盖少数热门景区和旅游旺季的话，所谓“预测”就有点小折扣。

百度旅游预测用“拥挤指数”来预测未来两天的景区人流：1、非常舒适；2、舒适；3、一般；4、拥挤；5、非常拥挤，私下里琢磨这应该是用预测人数和所谓“景区最佳承载量”和“景区最大承载量”相比较得出的结果，只是在国内目前对不同类型景区的“承载量”计算方法和标准不统一的情况下，这个“挤不挤”和“多乎哉”就有疑问，南京夫子庙的“挤”和国家博物馆的“挤”可不是一个概念。对于小长假清明节旅游行业来说，这事的新闻性很强，一般而言，现在新闻性很强的东西，总让人心里有点“小忐忑”。

再看看媒体比较全面的描述：“其实，旅游预测的核心，是基于百度大数据的预测模型。一方面，百度通过其LBS产品记录了全国所有景区的历史人流数据；另一方面，从百度的搜索日志中，得知用户想去的任何景点旅游的需求数据，以及该地在近期将举办的大型活动、民俗集会等相关信息，还可以获取对应时间下的天气、空气质量等数据。这些数据通常是按照时间排列的一系列数值，被称为“时间序列”，简称“时序”。百度大数据部联合百度深度学习研究院（简称IDL）在旅游预测产品中构建了名为“状态空间模型”的时序预测模型，其中所谓的“状态”就是影响时序的各种因素，这些因素对时序影响的效果也在模型中被量化、系统化，进而可以预测将来。这个模型可以轻松的引入新的因素作为新增的状态加入到模型中，以得到更好的预测结果。”

尽管这段描述很“忽悠”人。不过无论如何，此次百度利用大数据进行旅游人流预测，开了旅游大数据预测应用的先河，其标志和创新的意义十分巨大，也给旅游行业带来了很大的震动和启发。旅游人流预测一向是旅游行业的重大课题，尤其是对旅游管理机构以及目的地企业而言，对未来做到“心中有数”，无论对旅游行业宏观把握和调控，还是对目的地营销活动的引导，以及对旅游人流流向和流量的调整，都具有很大的现实意义。根据目前披露的信息，百度旅游预测所依据的主要数据是LBS历史数据和网民搜索数据，对于其详细的算法有待以后的交流和沟通，因而无法对其预测过程进行更加详细的研判，虽说心里有很大的“狐疑”。而百度一开始下手5A景区，和以模糊的“拥挤指数”来披露预测结果，为自己留下了回旋的空间，这也是很“聪明”的做法。只是下一步的完善难度很大，尤其是非节假日的以及非热点旅游景区的预测，当然，对百度将要推出的“城市旅游预测”更有期待。

再唠叨几个想法。

1、如果OTA们能够把自个的“大”数据和百度大数据进行结合，交叉分析，一定会有很多“宝贝”。这些分析数据一定不像现在一样争先恐后地“披露”和“张扬”，自个的“一斑”怎好说“全豹”，再说凡是披露的，一般价值不大。

2、OTA伙计们应加大对旅游者获取信息行为数据的关注，这些数据对指导今后的经营策略、产品结构以及营销活动会有很大的帮助。

3、今后业内的所谓旅游大数据分析师一定是个“钻石”职位，这个可能不是阿狗阿猫能操办的了的，看过不少大头闹笑话的数据分析，“身在宝山空手回”算好的，也许就拾几个“C货”回来。

4、百度旅游预测中的相对数据和结构分析数据要比所谓“拥挤指数”要有价值的多，尤其是对旅游目的地而言。

5、从某种程度上来说，今后旅游管理机构与百度数据合作的意义可能大于营销合作的意义。营销合作只限于百度，而数据合作发挥的作用非常广大。

今年山东省旅游局又与百度启动新一轮的合作，其中数据合作部分是重点，合作代理商的政府招标手续正在办理，有意者注意山东旅游政务网招标公告，还得好好琢磨琢磨。

有关大数据的言论、说法和书籍很多，最近发现一篇很有启发的文章，也很能说明本文中的“狐疑”，推荐给业内同仁。文章很长，不过看看这篇文章，再瞅瞅百度旅游预测，很有意思。

摘自：199it.com

大数据是对于大规模现象的一种模糊的表达。这一术语如今已经被企业家、科学家、政府和媒体炒得过热。五年前，谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势，而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心(CDC)要快的多。谷歌的追踪结果只有一天的延时，而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图，延时超过一周。谷歌能算的这么快，是因为他们发现当人们出现流感症状的时候，往往会跑到网络上搜索一些相关的内容。”谷歌流感趋势“不仅快捷、准确、成本低廉，而且没有使用什么理论。谷歌的工程师们不用费劲的去假设哪些搜索关键字（比如”流感症状“或者”我身边的药店“）跟感冒传染有相关性。他们只需要拿出来自己网站上5000万个最热门的搜索字，然后让算法来做选择就行了。谷歌流感趋势的成功，很快就成为了商业、技术和科学领域中最新趋势的象征。兴奋的媒体记者们不停的在问，谷歌给我们带来了什么新的科技？在这诸多流行语中，“大数据”是一个含糊的词汇，常常出现于各种营销人员的口中。一些人用这个词来强调现有数据量的惊人规模——大型粒子对撞机每年会产生15PB的数据，相当于你最喜欢的一首歌曲重复演奏15000年的文件大小。然而在“大数据”里，大多数公司感兴趣的是所谓的“现实数据”，诸如网页搜索记录、信用卡消费记录和移动电话与附近基站的通信记录等等。谷歌流感趋势就是基于这样的现实数据，这也就是本文所讨论的一类数据。这类数据集甚至比对撞机的数据规模还要大（例如facebook），更重要的是虽然这类数据的规模很大，但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱的堆积在一起，而且可以实时的更新。我们的通信、娱乐以及商务活动都已经转移到互联网上，互联网也已经进入我们的手机、汽车甚至是眼镜。因此我们的整个生活都可以被记录和数字化，这些在十年前都是无法想象的。大数据的鼓吹者们提出了四个令人兴奋的论断，每一个都能从谷歌流感趋势的成功中印证：•数据分析可以生成惊人准确的结果；

•因为每一个数据点都可以被捕捉到，所以可以彻底淘汰过去那种抽样统计的方法；

•不用再寻找现象背后的原因，我们只需要知道两者之间有统计相关性就行了；

•不再需要科学的或者统计的模型，”理论被终结了”。《连线》杂志2008年的一篇文章里豪情万丈的写到：“数据已经大到可以自己说出结论了“。

不幸的是，说的好听一些，上述信条都是极端乐观和过于简化了。如果说的难听一点，就像剑桥大学公共风险认知课的Winton教授（类似于国内的长江学者——译者注）David Spiegelhalter评论的那样，这四条都是“彻头彻尾的胡说八道”。在谷歌、facebook和亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中，现实数据支撑起了新互联网经济。爱德华.斯诺登揭露了美国政府数据监听的规模和范围，很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。咨询师敦促数据小白们赶紧理解大数据的潜力。麦肯锡全球机构在一份最近的报告中做了一个计算，从临床试验到医疗保险报销到智能跑鞋，如果能把所有的这些健康相关的数据加以更好的整合分析，那么美国的医疗保险系统每年可以节省3000亿美金的开支，平均每一个美国人可以省下1000美元。虽然大数据在科学家、企业家和政府眼里看起来充满希望，但如果忽略了一些我们以前所熟知的统计学中的教训，大数据可能注定会让我们失望。Spiegelhalter教授曾说到：“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失，它们只会更加突出。”在那篇关于谷歌流感趋势预测的文章发表4年以后，新的一期《自然杂志消息》报道了一则坏消息：在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天，在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了，谷歌的模型显示这一次的流感爆发非常严重，然而疾控中心在慢慢汇总各地数据以后，发现谷歌的预测结果比实际情况要夸大了几乎一倍。问题的根源在于谷歌不知道（一开始也没法知道）搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的，或许根本不可能。而发现两件事物之间的相关性则要简单和快速的多。就像Viktor Mayer-Schönberger 和Kenneth Cukier 在《大数据》这本书中形容的那样：“因果关系不能被忽略，然而曾作为所有结论出发点的它已经被请下宝座了。”这种不需要任何理论的纯粹的相关性分析方法，其结果难免是脆弱的。如果你不知道相关性背后的原因，你就无法得知这种相关性在什么情况下会消失。谷歌的流感趋势出错的一种解释是，2012年12月份的媒体上充斥着各种关于流感的骇人故事，看到这些报道之后，即使是健康的人也会跑到互联网上搜索相关的词汇。还有另外一种解释，就是谷歌自己的搜索算法，在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为。这就好像在足球比赛里挪动了门柱一样，球飞进了错误的大门。谷歌将使用新的数据再次校准流感趋势这个产品，重新来过。这当然是正确的做法。能够有更多的机会让我们简捷的采集和处理大规模的数据，这当然有一百个理由让人兴奋。然而我们必须从上述例子中汲取足够的教训，才能避免重蹈覆辙。统计学家们过去花了200多年，总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了，更新更快了，采集的成本也更低了。但我们不能掩耳盗铃，假装这些陷阱都已经被填平了，事实上它们还在那里。在1936年，民主党人Alfred Landon与当时的总统Franklin Delano Roosevelt（富兰克林.罗斯福——译者注）竞选下届总统。《读者文摘》这家颇有声望的杂志承担了选情预测的任务。当时采用的是邮寄问卷调查表的办法，调查人员雄心勃勃，计划寄出1000万份调查问卷，覆盖四分之一的选民。可以预见，洪水般寄回的邮件将超乎想象，然而《文摘》似乎还乐在其中。8月下旬的时候他们写到：“从下周起，1000万张问卷的第一批回执将会到达，这将是后续邮件洪峰的开始。所有这些表格都会被检查三次，核对，交叉存档五份，然后汇总。”最终《文摘》在两个多月里收到了惊人的240万份回执，在统计计算完成以后，杂志社宣布Landon将会以55比41的优势击败Roosevelt赢得大选，另外4%的选民则会投给第三候选人。然而真实选举结果与之大相径庭：Roosevelt以61比37的压倒性优势获胜。让《读者文摘》更没面子的是，观点调查的先创人George Gallup通过一场规模小的多的问卷，得出了准确得多的预测结果。Gallup预计Roosevelt将稳操胜券。显然，Gallup先生有他独到的办法。而从数据的角度来看，规模并不能决定一切。观点调查是基于对投票人的的大范围采样。这意味着调查者需要处理两个难题：样本误差和样本偏差。样本误差是指一组随机选择的样本观点可能无法真实的反映全部人群的看法。而误差的幅度，则会随着样本数量的增加而减小。对于大部分的调查来说，1000次的访谈已经是足够大的样本了。而据报道Gallup先生总共进行了3000次的访谈。就算3000次的访谈已经很好了，那240万次不是会更好吗？答案是否定的。样本误差有个更为危险的朋友：样本偏差。样本误差是指一个随机选择的样本可能无法代表所有其他的人；而样本偏差则意味着这个样本可能根本就不是随机选择的。George Gallup费了很大气力去寻找一个没有偏差的样本集合，因为他知道这远比增加样本数量要重要的多。而《读者文摘》为了寻求一个更大的数据集，结果中了偏差样本的圈套。他们从车辆注册信息和电话号码簿里选择需要邮寄问卷的对象。在1936年那个时代，这个样本群体是偏富裕阶层的。而且Landon的支持者似乎更乐于寄回问卷结果，这使得错误更进了一步。这两种偏差的结合，决定了《文摘》调查的失败。Gallup每访谈一个人，《文摘》对应的就能收到800份回执。如此大规模而精确的调查最终却得出一个错误的结果，这的确让人难堪不已。如今对大数据的狂热似乎又让人想起了《读者文摘》的故事。现实数据的集合是如此混乱，很难找出来这里面是否存在样本偏差。而且由于数据量这么大，一些分析者们似乎认定采样相关的问题已经不需要考虑了。而事实上，问题依然存在。《大数据》这本书的联合作者，牛津大学互联网中心的Viktor Mayer-Schönberger教授，曾告诉我他最喜欢的对于大数据集合的定义是“N=所有”，在这里不再需要采样，因为我们有整个人群的数据。就好比选举监察人不会找几张有代表性的选票来估计选举的结果，他们会记点每一张选票。当“N=所有”的时候确实不再有采样偏差的问题，因为采样已经包含了所有人。但“N=所有”这个公式对大多数我们所使用的现实数据集合都是成立的吗？恐怕不是。“我不相信有人可以获得所有的数据”，Patrick Wolfe说，他是伦敦大学学院的一名计算机学家和统计学教授。推特(Twitter)就是一个例子。理论上说你可以存储和分析推特上的每一条记录，然用后来推导出公共情绪方面的一些结论（实际上，大多数的研究者使用的都是推特提供的一个名为“消防水龙带”的数据子集）。然而即使我们可以读取所有的推特记录，推特的用户本身也并不能代表世界上的所有人。（根据Pew互联网研究项目的结果，在2013年，美国的推特中年轻的，居住在大城市或者城镇的，黑色皮肤的用户比例偏高）我们必须要搞清楚数据中漏掉了哪些人和哪些事，尤其当我们面对的是一堆混乱的现实数据的时候。Kaiser Fung是一名数据分析师和《数字感知》这本书的作者，他提醒人们不要简单的假定自己掌握了所有有关的数据：“N=所有常常是对数据的一种假设，而不是现实”。在波士顿有一款智能手机应用叫做“颠簸的街道”，这个应用利用手机里的加速度感应器来检查出街道上的坑洼，而有了这个应用市政工人就可以不用再去巡查道路了。波士顿的市民们下载这个应用以后，只要在城市里开着车，他们的手机就会自动上传车辆的颠簸信息并通知市政厅哪里的路面需要检修了。几年前还看起来不可思议的事情，就这样通过技术的发展，以信息穷举的方式得以漂亮的解决。波士顿市政府因此骄傲的宣布，“大数据为这座城市提供了实时的信息，帮助我们解决问题并做出长期的投资计划”。“颠簸的街道”在安装它的设备中所产生的，是一个关于路面坑洼的地图。然而从产品设计一开始这张地图就更偏向于年轻化和富裕的街区，因为那里有更多的人使用智能手机。“颠簸的街道”的理念是提供关于坑洼地点的“N=所有”的信息，但这个“所有”指的是所有手机所能记录的数据，而不是所有坑洼地点的数据。就像微软的研究者Kate Crawford指出的那样，现实数据含有系统偏差，人们需要很仔细的考量才可能找到和纠正这些偏差。大数据集合看起来包罗万象，但“N=所有”往往只是一个颇有诱惑力的假象而已。当然这个世界的现实是如果你能靠某个概念挣到钱，就没人会关心什么因果关系和样本偏差。全世界的公司在听到美国折扣连锁店Target的传奇式成功（由纽约时报的Charles Duhigg在2012年报道出来）以后估计都要垂涎三尺。Duhigg解释了Target公司是如何从它的顾客身上搜集到大量的数据并熟练的加以分析。它对顾客的理解简直是出神入化。Duhigg讲的最多的故事是这样的：一名男子怒气冲冲的来到一家明尼苏达附近的Target连锁店，向店长投诉该公司最近给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方的向他道了歉。可不久后店长又收到这名男子的电话要求再次道歉——只是这一次对方告知那个少女确实怀孕了。在她的父亲还没有意识到的时候，Target通过分析她购买无味湿纸巾和补镁药品的记录就猜到了。这是统计学的魔法吗？或许还有更世俗一点的解释。Kaiser Fung在帮助零售商和广告商开发类似的工具上有着多年的经验，他认为“这里面存在一个严重的虚假正面效应的问题”。他指的是我们通常都没有能够听到的无数的反面故事，在那些例子里没有怀孕的妇女们也收到了关于婴儿用品的优惠券。如果只听Duhigg讲的故事，你可能很容易就觉得Target的算法是绝对可靠的——每个收到婴儿连体服和湿纸巾购物券的人都是孕妇。这几乎不可能出错。但实际上孕妇能收到这些购物券可能仅仅是因为Target给所有人都寄了这种购物券。在相信Target那些读心术般的故事之前，你应当问问他们的命中率到底有多高。在Charles Duhiggs的描述中，Target公司会在给你的购物券中随机性的掺杂一些无关的东西，比如酒杯的券。否则的话孕妇们可能会发现这家公司的计算机系统在如此深入的探测她们的隐私，进而感到不安。Fung对此则有另外的解释，他认为Target这样做并不是因为给孕妇寄一份满是婴儿用品的购物手册会让人起疑，而是由于这家公司本来就知道这些手册会被寄给很多根本没有怀孕的妇女。以上这些观点并不意味着数据分析一无是处，相反它可能是有高度商业价值的。即使能够把邮寄的准确度提高那么一点点，都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。一位名叫John Ioannidis的传染病学家在2005年发表了一篇论文，题目叫“为什么大多数被发表的研究结果都是错误的”，标题言简意赅。他的论文中一个核心的思想就是统计学家们所称的“多重比较问题”。当我们审视数据当中的某个表象的时候，我们常常需要考虑这种表象是否是偶然产生的。如果这种表象看起来不太可能是随机产生的时候，我们就称它是“统计上显著的”。当研究者面对许多可能的表象时，多重比较错误就可能发生。假设有一个临床试验，我们让部分小学生服用维他命而给其他小学生安慰剂。怎么判断这种维他命的效果？这完全取决于我们对“效果”的定义。研究者们可能会考察这些儿童的身高、体重、蛀牙的概率、课堂表现、考试成绩甚至是25岁以后的收入或者服刑记录（长期追踪观察）。然后是综合比较：这种维他命是对穷困家庭的孩子有效，还是对富裕家庭的有效？对男孩有效，还是女孩？如果做足够多的不同的相关性测试，偶然产生的结果就会淹没真实的发现。有很多办法可以解决上述的问题，然而在大数据中这种问题会更加严重。因为比起一个小规模的数据集合来说，大数据的情况下有太多可以用作比较的标准。如果不做仔细的分析，那么真实的表象与虚假表象之比——相当于信号噪声比——很快就会趋近于0.更糟的是，我们之前会用增加过程透明度的办法来解决多重比较的问题，也就是让其他的研究者也知道有哪些假设被测试过了，有哪些反面的试验结果没有被发表出来。然而现实数据几乎都不是透明的。亚马逊和谷歌，Facebook和推特，Target和Tesco，这些公司都没打算过跟你我分享他们的所有数据。毫无疑问，更新、更大、更廉价的数据集合以及强大的分析工具终将产生价值。也确实已经出现了一些大数据分析的成功实例。剑桥的David Spiegelhalter提到了谷歌翻译，这款产品统计分析了人类已经翻译过的无数文档，并在其中寻找出可以自己复制的模式。谷歌翻译是计算机学家们所谓的“机器学习”的一个应用，机器学习可以在没有预先设定编程逻辑的条件下计算出惊人的结果。谷歌翻译是目前所知的最为接近”无需理论模型、纯数据驱动的算法黑盒子”这一目标的产品。用Spiegelhalter的话来说，它是“一个令人惊讶的成就”。这一成就来自于对海量数据的聪明的处理。然而大数据并没有解决统计学家和科学家们数百年来所致力的一些难题：对因果关系的理解，对未来的推演，以及如何对一个系统进行干预和优化。伦敦皇家学院的David Hand教授讲过一句话，“现在我们有了一些新的数据来源，但是没有人想要数据，人们要的是答案”。要使用大数据来得到这样的答案，还需要在统计学的方法上取得大量长足的进展。UCL的Patrick Wolfe说，“大数据就好像是蛮荒的美国西部。那些头脑灵活野心勃勃的人会想尽办法利用一切可能的工具，从这些数据中淘出点值钱的东西来，这很酷。但目前我们做的还有些盲目。”统计学家们正争先恐后的为大数据开发新的工具。这些新的工具当然很重要，但它们只有在吸取而不是遗忘过去统计学精髓的基础上才能成功。最后，我们再回头来看看大数据的四个基础信条。

•其一，如果简单的忽略掉那些反面的数据，比如Target的怀孕预测算法，那么我们很容易就会过高的估计算法的精确度。

•其二，如果我们在一个固定不变的环境里做预测，你可以认为因果关系不再重要。而当我们处在一个变化的世界中（例如流感趋势预测所遇到的那样），或者是我们自己就想要改变这个环境，这种想法就很危险了。

•其三，“N=所有”，以及采样偏差无关紧要，这些前提在绝大多数的实际情况下都是不成立的。

•最后，当数据里的假像远远超过真相的时候，还持有“数据足够大的时候，就可以自己说出结论了”这种观点就显得过于天真了。

大数据已经到来，但它并没有带来新的真理。现在的挑战是要吸取统计学中老的教训，在比以前大得多的数据规模下去解决新的问题、获取新的答案。

本文地址：http://lianchengexpo.xrbh.cn/quote/7030.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多