今天想探讨的主题是数据与地区发展,这里面有几个关键词,一个是数据,一个是地区发展。地区发展是城市研究的一个核心问题,地区发展蕴含了大量的数据,所以说数据和地区发展的碰撞能产生什么样的火花呢?
本文要点:
Google大数据在流行病学、经济预测、社会发展等方面的应用一、学科领域的演变
人们是如何利用大数据预测农产品产量的
如何利用中国手机用户数据预测中国的“鬼城”
关于大数据的批判与反思
简单地做一个自我介绍,我叫董磊,清华大学博士,具有建筑学、经济学、城市研究等多个领域的学习和研究背景,曾在百度研究院Big Data Lab (BDL),从事时空数据挖掘工作。主要研究兴趣是数据驱动下的城市研究、时空数据挖掘与建模,空间网格。本文主要介绍地区发展和大数据之间的一些研究。
首先先来梳理一下复杂科学领域的学科发展,梳理一下相关研究的脉络,大概分成图中的五支:
学科发展框架
第一支(紫色)是以数学为代表,比如分形、非线性动力学;
第二支(蓝色)是生物领域复杂性的探索,最后到计算生物科学以及生物的组织演化,包括张老师一直在做的工作;
第三大块(中间黄色)是一个最主流的领域,以自组织以及系统科学最后到网络科学为代表,这是最大的一支。
下一支是从控制理论开始,最后一支(橙色)是计算机科学。
二、关于大数据的三个故事
大数据究竟能做什么?先跟大家分享三个Google在大数据领域的经典故事。
1、Google Flu
第一个故事是Google流感,又叫Google Flu。可能很多人听说过,但不太清楚它背后的原理、机制,以及它到底做了什么、有什么样的结果。
Google Flu是Google在2008年的时候做的一个工作,在学术界和业界都引起了极大的影响。大家突然发现,一个互联网公司竟然开始介入流行病与地区发展相关的研究,而且很重要的是文章作者们,除了一位贡献了调查数据之外,全都是Google的计算机科学家,而他们都没有任何的传染病研究或者城市研究的背景。有趣的是,他们写了这么一篇Nature的文章,没有任何的“公式”。他们是怎么做的呢?为什么会引起很多的质疑以及争端?
Google Flu (参考文献[1])
关键词数量与准确率关系 (参考文献[1])
原理是这样的,大家都用Google或者百度的检索,这种搜索数据称为Query,他们把大概5000万条最主要的搜索数据一个一个去和流感爆发的数据做了相关性的分析,筛出高度相关的关键词。把主要的关键词筛出来以后,再把它进行各种组合,y轴代表准确率,x轴是数量,当组合到45个词的时候,准确率是最高的(虽然不知道为什么)。于是他们就认为,这45个关键词能够预测一个地区的流感的发病趋势,而且这个能够做到州级别的精度,对于每个州他们都能做一个很好的预测。
预测结果与实际结果比较 (参考文献[1])
黑色的先表示预测结果,红色的线是实际结果,根据预测结果和实际结果的对比发现,预测能够比实际的早一到两周。这在当时引起了很大的轰动,这篇文章也被广泛引用,但这也埋下了争论的伏笔。Google在2008年做的流感研究,被认为是用互联网和大数据做地区传染病的研究先驱。
2、Google Unemployment [2]
第二个Google做的很重要的工作是来预测地区的经济,这也特别神奇。紧接着2008年Google Flu的工作,2009年Google发了一篇内部的技术报告,讲了他们用搜索来看美国的失业率。黑色的线是美国的调查失业率,红色的线是Google与失业相关的词频的变化,经过一个简单的时间序列的回归以及一些季节性调整之后,他们发现有非常好的相关性。
所以说他们认为Google检索词不光能预测流感,也能预测地方经济的活力。而且不仅是宏观经济,检索还可以预测一些微观经济的情况,我们可以去预测一个汽车的销量,或者给公司提供一些商业咨询。比如这个车怎么卖,或者下一季度卖得好不好,或者楼盘怎么卖,他们都能做一个很好的预测。
下面这张图代表的是Google预测的汽车的销量,黑色的线是官方的统计数据。但这里也有一个trick的地方,就是他们在文章里面特别强调的一点就是Google预测当下,从来不强调预测未来。
词频检索与汽车销量 (参考文献[3])
3、Google Culture
提到Google关于经济的研究就不得不介绍一个人,非常有名,叫Hal Varian,是Google的“CEO”,不是首席执行官的意思,他在Google的职位是首席经济学家,Chief Economist。他在经济学界也是一个很先锋性的人物,他最早关注了信息经济学以及网络经济学,写过一本名叫Information rules: a strategic guide to the network economy的重要著作。Hal Varian2007年全职加入Google任首席经济学家,但早在2002年都开始参与Google的许多工作。
Hal Varian的Google Scholar主页
两本Varian写的重要著作
他从2002开始就参与Google的很多研究与决策,他参加了改善了Google的竞价排名,通过经济手段优化拍卖机制,也在Google做过一些计量经济学的分析,包括公司的战略合作,还有公共政策。他们的很多工作看上去并不能够给它带来商业上的直接收入,比如说它做流感、做宏观经济预测,但是对于它在公众领域的形象和政府关系是有非常重要的影响。
我们看到,前面讲了Google做了地区性流感的预测,做了经济分析,它能够分析出一个地区的失业情况,还能分析出产品销量的变化情况。但不止于此,他们还想去看看历史和文化的变迁。
Google Culture (参考文献[4])
在2011年,他们写了一篇文章,之前Google基于所有的电子化的书籍整理了一个数据库,开发了一套算法,这样可以统计历史的长河中词频的变化。Google图书计划在当时(2011年)一共电子化了500多万本书,约占人类全部出版物的4%。他们做了大量的工作,但文章写得很轻松,以图为主,我们可以来看一下他们的工作。
出版物中词频的变化 (参考文献[4])
他们认为历史的演变会体现在出版物词频的变化上,通过一些关键词可以看出这种趋势。他们认为书籍中的词频能成功反映三次大流感的爆发,还有世界政治格局的演变,像所谓的南北问题,有神论和无神论。包括男性和女性这两个词,男性的词频在下降,女性在上升,这对应了女权主义的崛起。通过这种方式可以很好地刻画历史长河中文化的演变。
纽约、伦敦、巴黎和罗马四个城市200年间词频的变化 (作者自绘)
这是用Google的数据去看一个城市的兴衰和演变,可以看到,如果把纽约、伦敦、巴黎和罗马这四个世界大都市的关键词输进去,很明显的现象就是罗马从1800年开始慢慢地衰落,这其实与大家的认识也吻合,罗马在世界经济和文化中的地位正在减弱;巴黎不怎么变,还是比较稳定;但是这里面有两个在跃升的,一个是伦敦是稳步上升,而纽约有了大幅度地飞跃,这与整个经济和文化的中心从欧洲往美国转移有很大关系。图上有两条灰色的线,对应的是纽约的高峰,欧洲城市的低谷,其实这是两次世界大战的时候,欧洲是主战场,其实就是二战摧毁了大量的城市,一下子跌入一个谷底,美国也在那时候得到崛起。
三、”大“数据背后的四个特征
通过这三个故事,发现他们背后有这四个特征,这些特征是所有这一类研究的特点,同时也是很多人批判他们的原因。
第一,他们只关注词频在时间序列上的变化;
第二,有些带有一点的空间位置,比如不同区域的流感,但是都是比较粗糙的,比如说到州这一级;
第三,预测当下而不是未来;
第四,需要基于调查数据验证。
所以有很多人认为,大数据其实并没有发挥它的优势,只不过是做实了之前的一些研究而已。还有的人认为,他的数据粒度可以做到很细,但是没有做到,这是所有Google的一些研究他们共同的特点。
但事实是并不是Google做不到,而是很可能他们已经做了,但并不会公开地对学术界或公众去讲,因为这个非常牵涉到个人的隐私。比如说每个人有一个ID,Google检测到他是不是检索过流感或者疾病爆发的关键词,这样可以很精准地刻画一个人的行为,如果把这些数据公布出去,是一个非常敏感的事情。但是这些数据很多时候被用来做他们的广告服务,只是没有让你知道。
Google Trends (Job, unemployment两个词)
1、百度指数与Google Correlate
Google开发了几个产品,包括百度也有一个相关的产品,叫百度指数。比如把失业这个关键词输进去,如果从长周期来看,可以看到美国是这么一个变化,2008年,相关词条的检索量突然上升,这是因为08年发生了很严重的金融危机;一直到2013年、2014年才稍微下降一些,这是因为美国的经济开始复苏。如果从短周期来看,这些波峰和波谷是非常有代表性的,在中国也有类似的情况。同样还可以做一些比较大一点区域的数据,你可以看不同的州的变化,还有重点城市的变化。
第二个更加神奇,之前所有的假设在于需要事先知道是哪些词,比如说要研究经济问题,需要输入经济相关的词,研究战争问题输入战争、冲突有关的词。但不知道要找哪些词怎么办?比如说房价是这样变的,但是并不知道什么会影响这个房价,那怎么去做一个验证?
Google有一个产品叫Google Correlate 只要把房价数据上传上去,它会自动从它的词库里面找到与这个曲线变化最相关的一组词。如果炒股的话你可以去看一看,把自己选的股票的曲线扔进去,看看究竟是哪些词频会影响你选择的股票的走势。
Google Correlate (美国房地产价格)
这是一个例子,比如说把美国住房市场的变化输进去(蓝线代表),红线是输出最高频的相关词的组合,是非常好的拟合的形式,而且这个都是公开的可供下载的,可以自己构筑一个房地产投资和股票的走势。
四、卫星遥感大数据研究
前面说了三个Google大数据应用的故事,是因为Google是业界非常领先的公司。但其实在Google、百度出现之前——甚至互联网出现之前,早就存在着用非常大量的数据去预测一个地区发展的情况,而且有一个很成熟也是很成功的应用,就是常用的遥感数据。遥感是类似于飞机和卫星掠过地球表面,它给地球拍了一个照片,是相对比较客观的数据源。
有这样一个故事,当年美国和中国的关系比较紧张的时候,美国说能够预测到中国粮食的产量,就可以有提前的一些贸易上的政策,背后用的就是遥感影像。而且这个领域现在在大宗的农产品期货和地区性的贸易上,用得非常多,好几家创业公司就做这个领域。
农业产量与卫星遥感 (图片来源:Orbital Insight)
这是一张卫星遥感的图片,所有标红的区域是农业产地。这是世界银行在做的一个工作,他们想看全球的粮食产量到底是怎么样的。不同的产量区域对应的颜色特征是不一样的,可以用一些图象处理的算法来预估农业产量,这听上去非常神奇——用数据可以预测地区微观农业发展。
地区建设与卫星遥感 (图片来源:Orbital Insight)
同样也可以用一些卫星遥感的数据、用图片的方式来检测一个地区的建设情况。而且通过结合建筑阴影的情况,在比较好的算法的调整下,可以推测出这个房子或者这个楼盘的高度,就可以评估,比如说一个地区的住宅的总量和各种区域的建筑总量。
世界银行在和美国的一些研究机构合作,包括百度也在开展一些工作,探讨如何衡量一个地区是否真正的贫困?在资源有限的情况下,应该把资金补贴投入到哪个地区,这是之前传统的方法没法去获得的。可能很多贫困地区已经不贫困了,但是它为了获得支持,会一直扣这个贫困的帽子,所以如何用科学方法去刻画贫困,也是一个很重要的研究问题。
1、你在城市中留下了哪些“足迹”
之前说了三个Google引发的数据故事,也提到了在互联网大规模应用之前,大家已经用遥感的数据来预测农业经济、以及城市的蔓延。抛开检索词也好、遥感也好,我们来看看人真正的活动,在城市之中到底是一个什么样的状况,你在城市中留下了哪些“足迹”。
城市中的电子足迹(参考文献[5])
这张图是我们的实验室做的,叫百度照亮中国,用的是手机产生的位置信息数据,越亮的地方是用户越多,或者说是电子足迹越多的地方,越暗的地方就是用户越少的地方。图中部是山东半岛,下面是长三角,再往北一点是北京地区。这里面没有叠加任何的底图,就是用手机用户的电子足迹,就可以很精确地刻画一个地区的结构和活力。用手机数据能把不同地区甚至街道、路网进行了非常有效的刻画,而且用户的覆盖量是非常大的。
Vacant housing in China (参考文献[6])
2、“鬼城”的研究
第二个就是吴海山博士和几位同事做的关于“鬼城”的研究[6]。中国在快速的城市化进程中,建设了大量的住宅,但其实没有什么人住(蛮有意思的一个现象)。很多人都意识到了类似的问题,但是想要知道究竟哪些住宅区空置率比较高?是比较困难的。
有一些传统的方法可以做,比如:抽取样本、派人去数晚上的楼是不是亮灯,但这些调查能覆盖的范围一是比较小,二来准确率也不高,同时费时费力。
联想到刚刚提到的百度的照亮中国这个项目,于是就可以用非传统的方式去解决这个问题,你的足迹就是相当于你点亮了一整栋,首先去找出所有的小区楼盘和你的足迹的关系,只需要做两个工作,第一个是要把所有的楼盘找出来,第二个去评估一下楼盘里面所有的电子足迹情况、数量。然后就可以把空置率非常高的地区找出来,进一步去分析它的原因,看看它产生的背景。
住宅空置率比较高的地区 (参考文献[6])
这是找出来的空置率比较大的地区。可以发现,相比于之前可能知道某个地区有空置的现象,它提供了一个更深刻的见解,即它能够通过数据精确的刻画出城市空置率。
把它们找出来之后,其实需要一个验证的工作,可以借助大量的街景地图,去判断是不是新开发的楼盘。
这项工作得到了特别广泛的关注,像华盛顿邮报、MIT Technical Review等世界上数十几家主流媒体都进行过报道。其实,像Google、百度还有大量的没有发表的工作,都做得很有意思。
华盛顿邮报报道页面 (图片来自华盛顿邮报官网)
五、关于大数据的批判
对于“大”数据,大家可能多多少少都听过来自各方面的批判,其中比较有影响的应该是2014年Science的一篇文章叫TheParable of Google Flu: Traps in Big Data Analysis的文章,引起了广泛地讨论。因为四个作者都是相关领域最资深的学者,他们的批判在某种程度上也可以认为是学术界和工业界的大战。
对Google Flu的质疑 (参考文献[7])
1、质疑理由
他们怎么质疑Google之前的研究呢?
首先,这几位学者发现,Google Flu总是高估流感的实际情况,2011-2012这两年里,Google Flu在108周里有100周是高估的。更重要的是,他们发现如果只用调查数据(CDC有关于流感的调查)做一个滞后两期的模型,来进行预测,这个模型的结果比Google还要准。也就是说用传统数据预测比Google Flu更准,那要Google Flu何用?
Google Flu与CDC的比较,Lagged CDC比Google Flu效果更好 (参考文献[7])
橙色的线是Google流感预测出来的,深蓝色的线是官方的调查数据,在最高峰的时候,Google能高出它的两倍。
此外,他们还从学术界的角度找了几个批判Google Flu的原因:
第一个,是Google没有披露究竟是用了哪45个词,结果不可重复。这其实挺有意思的,包括现在做的很多工作或者出于商业的考虑或者出于用户隐私的考虑,都不太可能告诉很细节的东西。
第二个,我刚才讲到了Google自己给自己挖了一个坑,Google推出了GoogleCorrelate,文章四位作者去用CDC的趋势,找拟合程度最好的词,发现找出来的词的趋势和Google Flu的趋势不一样.他们认为Google有操纵词条的嫌疑。Google最后出了一个更正,他们确实对词做了一些调整,是怎么调的呢?因为很多词是跟季节性有关,而流感也与季节相关,但这些词可能和流感没什么关系,比如球赛。
2.大数据研究的原则
后来这几位学者就针对大数据的研究提了几个原则:
第一个是透明性和可重复性,就是你的东西必须得告诉我为什么,别人用你的数据能重复出你的结果来。
第二个是用大数据去理解未知而非已知。在很多商业的具体工作中面临很多严峻的问题,比如中国没有好的调查数据,没有数据的时候怎么办?是不是能通过数据的方法去理解未知,而不是已知?包括研究的精度,是不是也可以借助大数据的力量把粒度变得非常精细?但这个其实在商业上是非常危险的行为,就是用户隐私的问题,这里不细展开。
第三个他们觉得调查方法一般比较稳定,有一致性性,但是所有的互联网公司的数据,包括Facebook、Google、百度,它背后的算法和机制一直在变,用户量也有非常大量的波动,这样就对理解背后规律性的东西会造成影响,而且这种算法都是不公开的。他们觉得,所有的研究人员应该对数据背后的算法和产生过程有更好的理解。
3.关于大数据研究的反思
我再讲几个我自己现在的反思。之前在进入一些新领域的时候,我们可能会带有一些成见、或者说偏见,包括我以前学计量经济学的时候,学者们特别注重因果推断,如果你只做相关性分析的话,根本是不可能发表经济学类的文章。所以说很多人对于“大”数据的批判就集中在这些类似的问题上。
第一个就是关于相关性和因果性的问题。比如说一个地区你如果是观测到它的警察数量多的话,往往犯罪率也是高,但是你并不能得出一个结论就是警察导致的犯罪。还有就是消防员和火灾,一个地区消防员越多的话,你会看到这个地区每年的火灾量也是最大的,但也不能说是消防员导致了火灾。
但是在数据时代其实是更加好去解释这个问题,因为传统经济学方法都是在找试验,无论是工具变量法还是双重差分,都想构造出一个实验组、一个对照组,看看它们的区别。但是在很多数据驱动的公司里面,这已经是一个非常容易而且非常现实的工作,比如说现在很多互联网公司做的都是灰度发布,每次发布产品的时候,不是推给我的全部用户。我会给A类用户推这种版本,我给B类用户推另一个版本,我看哪个比较受欢迎,最后会选择受欢迎的那个产品。所以像我们之前做的很多的对于经济、人口、政策的研究,都可以基于这些方式去做实验。如果你有比较好的实验和设计的话,就可以比较容易去解决因果和相关的问题。在数据时代是更容易去做这些试验的。
第二个是关于样本的偏差问题,这也是很多人质疑的。比如说你研究这个问题,Google就只有Google的用户,百度就只有百度的用户,微博就只有微博的用户,这是一个样本选择偏差。其实这背后有两个问题:一个是看你研究的问题是什么,如果你研究的问题本身这个样本能够涵盖,其实就并不构成问题,像现在有很多人在研究交通问题,其实就是研究通勤的问题,无非就是公交车、地铁、私家车,如果你能把相关的这些数据(公交、地铁、出租车,再加上部分地图的数据可以反应私家车)收集到,那就没有什么问题。还有像遥感数据,它比较客观,也一般不会构成样本偏差的问题。第二个可以结合一些调查数据对于“大”数据进行校准。而且随着全民移动的互联网化、物联网化,这种问题肯定是越来越好解决。
今天分享的内容是这些,当然还有很多值得讨论的问题,比如是否能通过大数据评估一个地区(城市)的发展情况,无论是宏观经济、人口的、政策的;这种数据源与传统的统计调查经济普查、人口普查,以及对传染病的调查究竟有什么不同,应该如何使用?还有就是大数据的边界在哪里?
本文由董磊整理自《数据与大发展——从若干实例看大数据应用》课程笔记
关注集智AI学园公众号
获取更多更有趣的AI教程吧!
搜索微信公众号:swarmAI
集智AI学园QQ群:426390994
学园网站:campus.swarma.org