当前位置:首页 > 专题范文>公文范文> 正文

凭借大数据分析和数学模型准确预测美国大选希尔沃:数据书呆子的“屌丝逆袭”

木木文档网 发表于:2022-10-25 13:40:06 来源:网友投稿

就其属性来说,政治分析不过是平平无奇的数据分析,希尔沃不过是综合已有的民调结果。然而,希尔沃建模分析的关键却在于如何衡量某一数据的重要性。

他在2008年美国大选中曾准确预测了49个州的选举结果,而2012年的美国大选,他则准确预测了全部50个州的选举结果。34岁的内特·希尔沃凭着自己的数学模型打败了所有时政记者、政党媒体顾问和政治评论员。美国公众沸腾了,媒体称他为超级极客、“算法之神”,并认为其成功让所有书呆子扬眉吐气。

准确预测美大选结果

??内特·希尔沃可以说是超级政治明星,他知道自己在说什么。在美国人看来,权威专家一直是拥有合适的发型、洁白的牙齿或者符合保守派观点的人。希尔沃完全不符合这些条件,他有的只是数据,许许多多的数据,而美国总统大选之夜证实了这些数据的准确性。

??投票前,许多评论家都认为无法预计哪方会获胜。他们预计本次选举,两名候选人的得票率将不相上下。但事实并非如此。结果证明罗姆尼和奥巴马完全不是旗鼓相当,正如希尔沃几个月来的预测。在大选日当天,他预测奥巴马将有90.9%的可能获得大半选举人投票,如果按州计算,他准确预测了所有州的选举结果。

??“你们知道谁是今晚(选举开票夜)的赢家吗?”美国微软全国广播公司节目新闻主播自问自答,“是内特·希尔沃。”

“算法之神”受到狂热追捧

推特瞬间沸腾了,各大博客网站也为希尔沃沸腾了。希尔沃的处女作——《信号和噪音:预测学的艺术与科学》销量一夜间增长800%,排到了畅销榜第二位。媒体一致认为本次大选预测的成功并不只是希尔沃个人的胜利,它还使所有书呆子都扬眉吐气。希尔沃凭他的数学模型打败了所有时政记者、政党媒体顾问和政治评论员。

希尔沃谦逊而不招摇,当他低着头拖着步子走进屋里,他似乎对自己被采访而感到尴尬。“整个事情变得有点疯狂,”他说。但他并不认为这种狂热与他有关,“我仿佛具有这种象征性力量,然而人们对我所做事情的推崇远超了我所应得的。我必须首先说明大家应该知道兼听则明,而不是把某个人的意见当成神谕。”

然而,这忠告似乎来得有点晚了。大选后的第二天当他出现在《每日秀》脱口秀节目时,节目主持人乔恩·斯图尔特称他为“算法之神”,但他的成功故事同时也是个“屌丝逆袭”的故事。

选举前的数周,他的批评者们(大多数是不满他预测奥巴马将获胜的保守派们)不仅攻击了他的预测方法,还对他进行了人身攻击。UnSkewedPolls.com的迪安·钱伯斯召集人们抵制希尔沃的“巫术数据”,宣称他神志不清并嘲讽他是个矮小瘦弱的娘娘腔。

不过从某些角度来说,人们的奉承似乎更难以应付。“奉承的话让我感到紧张,因为我确定我们将会出错。”这里的“我们”指的是他在2007年设立的提供以数据为主的时政分析的博客“FiveThirtyEight”(因538张选举人票总数得名)。

用数学模型分析棒球

希尔沃一直是数据的爱好者。“我一直都被人称作书呆子。”他出生于在密歇根州,家乡的棒球队底特律猛虎在他6岁的时候赢得了美国职业棒球全国锦标赛的冠军,而他也是在那个时候接触了各种统计数据并爱上了数据。

从芝加哥大学获得经济学学位后,他在专门提供审计、税务和咨询等服务的毕马威公司当了4年顾问,接着,他开始迷上了网络扑克。那时候许多玩网络扑克的人对扑克并没有很多了解,而他却能从他们手中赢钱,这些钱足够让他辞掉工作靠玩扑克养活自己。

扑克就像希尔沃生命中的天然磁石,不仅教会了他抓住机遇,还使他明白机遇在人生中扮演怎样的角色。“玩扑克对我而言是最好的训练,我从中学会了怎样衡量新信息的作用,怎样辨别信息的重要性。我们的直觉在分析信息方面并不是十分在行,我们总是倾向于高估新信息的重要性。”

希尔沃说:“技巧和运气间存在着微妙而又模糊的关联。赢钱的时候是因为牌技好还是运气好?你永远也不知道。”希尔沃估算他自己当时从网络赌博中赢了有大概40万美元,这些钱足够他去追求他另一项爱好——棒球。棒球这项体育运动正在不断地改变中,而希尔沃是最早发现这项运动有数据导向潜在可能性的少数人之一。他后来建立了Pecota网站,该网站建模分析预测美国职业棒球大联盟运动员的职业前景,后来他又把该网站卖给了《棒球简介》。

棒球预测就像一场保守的情报员与善于分析数据的新成员之间的斗争,这场斗争后来被迈克尔·路易斯在畅销书《点球成金》中记录了下来,后来布拉德·皮特主演了同名电影。2007年,希尔沃开始寻找新的契机。

信息多不意味更好地预测

“我当时在寻找像棒球分析那样的、有庞大的数据库而且鲜有竞争者的新领域,就在那个时候我找到了政治这个领域。”起初,他使用笔名“Poblano”。几个月后,他开始使用真名。

希尔沃觉得自己当时将已有的数据套用贝叶斯理论,如此一来他将“小有优势”。美国政治领域原本就充斥着许多数据,而他所使用的贝叶斯理论也不是什么尖端科技。英国神父贝叶斯于18世纪初发现了计算有条件的事件发生可能性的贝叶斯理论。

希尔沃后来表示同意批评者的观点。他甚至不是唯一一个使用贝叶斯理论分析选情的人,其他分析师也同样有不错的准确度。就其属性来说,政治分析不过是平平无奇的数据分析,希尔沃不过是综合已有的民调结果。然而,希尔沃建模分析的关键却在于如何衡量某一数据的重要性。这些数据在历史上有何作用,又有怎样的偏向性,还有什么别的信息可以借鉴?

“如果你表现良好,偶尔会得到独家消息,但这不过是许多既得利益间的游戏。我尽量回避和两边的竞选团队打交道,因为他们所给的信息大都是干扰性的噪音。”

希尔沃正在寻找下一个目标——一个拥有许多数据却没有太多竞争对手的领域。他认为经济新闻是一个不错的选择,而地方政府选举则是“难以预测”。

希尔沃在成功预测了2008年美国大选结果后签下了一份价值70万美元的出版合约。但当时没有人能料到他会有多大的成就。不过,当时就连希尔沃自己也不知道这本书会有什么样的反响。

“我当时以为这本书会像是介绍婚介网站那样运作之类的书籍。这本书的确也提到了这些内容,但是更多的是介绍这当中的哲学原理。这本书是关于客观性和现实的主观性的交集。面对一堆数据时,我们经常处理得很糟糕。拥有更多信息并不意味着我们能更好地预测。”

文/摘自《南方都市报》

拿数据模型预测未来有多准?

大卫·罗斯切尔德(David Rothschild)

微软研究院计算机专家

不只是大选这样的政治领域,数学模型预测的范围十分宽广。应该说,只要是有因果关系、有规律的行业都可以进行预测。比如股票,如今已经有通过数学模型预测某只股票涨跌,来进行推荐。当然彩票不行,因为它是随机的。

在今年第85届奥斯卡奖揭晓之前,我开发了一款名为“奥斯卡预测器”的数学模型,它是Excel形式的,通过对奥斯卡入围影片相关数据的分析,预测最终奖项属谁。与预测总统选举结果相比,有人认为预测奥斯卡奖比大选容易得多,因为后者涉及上亿张选票,而奥斯卡评委人员仅几千。其实预测奥斯卡奖的方法和预测其他事情是完全一致的。技术是相同的,而数据预测所需要的有效信息却各有各的不同。

在我的预测中,最佳影片是《逃离德黑兰》,它的获奖概率是93.6%,而最佳导演是史蒂芬·斯皮尔伯格,最佳男演员是丹尼尔·刘易斯,最佳女演员是詹妮弗·劳伦斯。

德鲁·林策(Drew Linzer)

埃默里(Emory)大学政治科学系助理教授

不仅希尔沃,在美国大选之前很多统计学者和分析师都加入了预测的队伍,我也是如此。我开了一个名叫Votamatic的网站,在总统选举阶段我都在网站上发布预测信息。从去年六月开始,我建立的数学模型就一直以95%的确定性显示奥巴马获胜。

我的模型与希尔沃的很不一样。事实上,由于人们思维方式的差异,虽然使用的算法可能都是神经网络或贝叶斯等,但是算法组合形成的模型会很不同,有时结果也相距甚远。我的模型主要使用了三个因素:一个是去年前几个月的GDP增长率,这些信息来自经济分析局,是公开的,政府每年都会更新。二是现任总统的支持率,来自民意调查,也是公开的。最后一个是总统党派的执政届数,这个数据主要体现选民对执政党的厌倦程度,每个人都能算出来。把这三项公开有效的数据结合起来,就能得到选举结果的预测。结果证明,我的预测很准确。

刘国清

北京集奥聚合公司首席技术官

在数学模型预测中,除了科学家建立模型的质量至关重要之外,获取数据的质量和数量也对预测结果有决定性影响。美国大选预测中,有两个数据源:线上和线下。前者以脸书等社交网络为主。而后者则需要很大的数据采集团队,既要做民调,又要让民主党、共和党在各前期社区的代表进行前期本地民意预测。据悉,仅在俄亥俄一州,就有近3万人进行了民调。无疑,这在一般行业、一般性预测中是很难实现的。

一直以来,制约数据模型预测的最大因素就是数据源的获取,如何得到大样本的有效数据是个大问题。随着互联网的发展,大数据时代已经到来,数据获取问题得到了很好的解决。不过,互联网发展已经有很多年了,为什么前些年数据模型预测困难呢?很大程度上,前些年的互联网应用更关注信息传递,而现在,如此大规模的信息,使得分析人士开始思考哪些信息能提炼出对本行业有用的预测,数学模型预测开始兴起。

史宁中

东北师范大学数学与统计学院教授

数学模型预测的重要技术是概率统计学。对于统计学而言,重要的不是画统计图、求平均数等技能的学习,而是发展数据分析观念。应该说,统计学是数据分析的科学和艺术。在这个大数据时代,数据的概念也在不断扩充。事实上,现在的数据不仅仅是数字,图是数据、语句也是数据。比如,人们在网上经常用百度、谷歌来进行检索,百度、谷歌是用统计的方法来进行语句检索,此时统计处理的是语句,我们把这些都叫做数据。

在去年美国总统大选中,数学模型预测的实质就是通过社会舆论,获得对民主党、共和党候选人的评价,它与以往最大的不同点就是用数字形式来衡量民意。然而,民意是通过语言表达的,并非数字形式,这就需要将语意量化为数字,再将这个数字通过概率统计、代数模型、离散数学等方法来衡量民意,以此来支持决策,对未来投入有所预期。

推荐访问:希尔 大数 书呆子 大选 美国