统计学作为一门学科,它的历史可追溯至史前人们掰手指数山羊时。如果我把记录邻居每次借山羊数量的符木都保留下来,稍加比较,就可以发现邻居借山羊的习惯随着时间变化而有所波动。也许我能做的只是进行简单直接的比较,看看数量的变化,但是这种基本的统计工作仍然会让我乐此不疲。
统计学(statistics)这个词与“国家”(state)源于同一个表达,这门学科在刚开始时只是指收集一个国家的相关数据,这与美国中央情报局的《世界各国概况》没什么两样。显然,这样的活动不会引起任何麻烦。但是,只要统计学继续存在,有一句名言就会如跗骨之疽,让它笼罩在阴影之中:“世界上有三种谎言,分别是谎言、讨厌至极的谎言和统计数字。”这显然是指责统计人员居心叵测,尽管他们可能以无辜的数学家自居。
我们都不清楚,这句将谎言与统计数字相提并论的话到底是谁说的。通常认为,这句话出自英国前首相本杰明·迪斯累里之口。但是,这位擅长以诙谐幽默的语言讽刺他人的前首相却矢口否认,声称他说的这句话引自马克·吐温,但是人们在马克·吐温的作品中却找不到相关证据。也许是这位小说家造访英国时,随口跟这位政治家说的吧。
然而,在刚开始的时候,统计学这门学科的确给人一种恐怖的感觉。第一位统计人员的统计对象是死亡人数,这位统计人员名叫约翰·格朗特,是一名纽扣制造商。尽管他从事的工作与数学无关,但是他对周围世界的运行规律颇感兴趣。格朗特想办法收集“死亡公报”以了解伦敦1604—1661年死亡人口的详细资料,还收集了出生人口数据,然后将这些数据汇集成册。他的目的是通过研究这些数字,了解伦敦底层人民的生活概况。
在一定程度上看,他的工作就是收集散落于各种文件中的相关数据,然后将这些已有数据公布出来,这是人类有史以来第一次了解到不同年份瘟疫致死人数的情况。然而,仅仅整理这些已有的数据,并不能让格朗特感到满足。他还将数字加以整合,从而发现前人没有发现的信息。例如,他根据整合后的数据估算出伦敦的人口数量(当时还没有人口普查),并试图了解不同人群的预期寿命差异。
正是这项预期寿命研究,再加上天文学家埃德蒙·哈雷后来所做的分析,直接催生了一个新的行业——保险业,这个行业主要针对的是人们在综合考虑统计数据与未来可能情况之后的不确定心理。当时,人们喜欢聚集在伦敦的咖啡屋里谈生意。这种把赌注押在未来结果上的行业就始于这些熙熙攘攘的人群,随后,借助当时最全面的统计数据,迅速向世界各地蔓延,成了每个人都要打交道的一个行业。
尽管遭到了迪斯累里的鄙视,但是统计学作为一门独立的学科,发展的态势似乎一帆风顺。当统计学与概率(研究可能性的数学分支)相遇之后,更是迸发出耀眼的火花。在此之前,数学在它与现实世界之间的关系中一直处于从属地位,它诚实地展示当前的状况或者解释已经发生的事。但是,统计学这个全新的数学分支却在社会底层人民的支持下,大言不惭地预测起未来,而且它的预测结果与牛顿的“机械宇宙观”不同,充满了不确定性和风险。于是,数学描述周围世界的能力取得了重大突破,并把触角伸至尚未发生的未来。最终,概率和统计学的重要性与日俱增,被用来描述包括气体特性、神秘量子在内的所有事物。我们将在第13章深入讨论这方面的内容。
要想在蓬勃发展的保险业叱咤风云,仅掌握足够多的数据是不够的,还必须把这些数据变成“水晶球”(格朗特已经证明,这是有可能的),才能用它们预测未来。所谓水晶球,是指那些社会底层人民的生活习惯,而不只是那些纽扣制造商的各种癖好。这是一个赌徒的世界。仔细想想,保险业就像一个赌场:它披着行业的外衣,希望可以通过赌局保持不断前进的态势,“玩家”虽然有赚钱的可能性,但在大多数情况下,他们投入的钱都变成了保险公司的利润。
赌博业的历史源远流长,人们曾经在有几千年历史的考古地点发掘出几个表面光滑的指关节,这是一种早期的四面体色子。自从有了硬币之后,抛硬币的游戏就开始兴起,而且似乎经久不衰。这个游戏非常简单,可以直接利用硬币的正反两面得到随机数据。至少在硬币没被动过手脚的情况下,它产生的都是随机数据。自古以来,人类就嗜赌,无论是对赛跑还是天气打赌,都能让人们享受到赌博的乐趣。总体而言,无论是赌徒还是诚实的庄家,他们依赖的基本都是直觉和猜测。然而,在意大利数学家(也是一名狂热的赌徒)吉罗拉莫·卡尔达诺出现之后,这种状况就发生了彻底的变化。
前文在讨论虚数时提到过卡尔达诺,他把变幻莫测的可能性引入数学世界,这不仅对数学的未来发展具有重要意义,而且在将数学与难以捉摸的寻常事物分离开的过程中,也发挥着举足轻重的作用。卡尔达诺出生于1500年前后,20多岁时开始撰写一本关于概率的书,但是直到他60多岁时才写完。最终,这本书于17世纪60年代出版。一般而言,这么长的时间跨度足以让它淡出人们的视线,但是它的出版仍然引起了人们的广泛关注,这说明卡尔达诺的思想非常超前。这本书就是《机遇博弈》(Liber de Ludo Aleae)。
几乎所有经常玩抛硬币游戏的人都知道,如果硬币没有问题,抛出正面和反面的概率是相等的。没有人知道下一次抛掷会出现什么结果,但是出现正面或者反面的可能性是均等的。卡尔达诺的贡献在于,通过简单直接的观察,将观察结果变成一个数字结构——把分数的概念与对未来的预测结合起来,使我们对一个简单的系统(例如抛硬币)有了深刻的理解。
当然,硬币没被动过手脚这个限制条件非常重要。要让人们尊重概率,难点之一就在于赌徒(尤其是职业赌徒)经常作弊。有的职业赌徒通过使用两面都是正面图案的硬币,在抛硬币游戏中无往不利,有的则在三牌赌皇后游戏中熟练使用简单而有高度欺骗性的“从最上面拿牌”的手法[1]。但是,他们都有一个共同点:他们仿佛具有某种魔力,可以轻易地误导那些容易上当的对象,说服他们参加赌博游戏。我们至少可以认为职业赌徒、魔术师和小偷之间的界限比较模糊。
我在做关于概率和统计学的报告时,通常会一开始先举抛硬币的例子。我会拿出一枚硬币,并告诉观众,我在报告开始之前已经花了一些时间抛这枚硬币,并且最后9次的结果都是正面。(这个结果完全是有可能的,但是通常需要花一点儿时间。)然后,我问观众,如果我再抛一次硬币,会出现什么样的结果?一种观点认为,既然正面和反面各有一半的概率,在出现这么多的正面之后,下一次出现反面的可能性应该更大。还有一种观点认为,因为这枚硬币明显偏向正面朝上,因此下一次出现正面的可能性更大。到底哪一种观点是正确的呢?总有一些人会说,“出现反面的可能性更大”,这就是所谓的“赌徒谬误”,因为在现实世界中,硬币没有记忆能力,之前的结果不会对之后的结果产生任何影响。然而,在连续出现同一个结果之后,人们很容易就会以为接下来出现另外一种结果的可能性更大。
通常情况下,大多数观众都会给出正确答案:出现正面和反面的概率各一半。但是,有一些人仍然认为出现正面的概率更大。这可能是经常出现在体育比赛中的另外一个谬误——热手谬误。所谓热手谬误是指,体育迷认为一连串好的结果意味着某位选手或某支球队将保持“连胜势头”。但如果我又连续抛出三个正面,观众就开始产生怀疑。他们的怀疑是正确的:我使用的硬币两面都是正面。(此时,观众会提出相同的问题:“你从哪里搞到这枚硬币的?”答案是电子港湾网站。)有趣的是,观众不可避免地对这枚硬币产生了强烈的兴趣,就好像电影中的高明骗局使我们欲罢不能一样。他们希望看一看这枚有两个正面的硬币,还想亲手摸一摸这个邪恶的道具。
在卡尔达诺那个年代,人们都知道,只要硬币质地均匀,出现正面或反面的可能性是一样的。(严格地说,真实情况并非如此。根据抛掷的方式,标准硬币出现正面和反面的概率大约是51∶49或49∶51,第一次抛掷时朝上的一面略占优势。)但是,没有人把这种机会均等的情况变成一种适合数学研究的形式。尽管表达抛硬币时正面朝上的可能性的方法有很多,诸如机会均等,各占一半,但是只有用可以进行算术运算的数字来表示,它才最有利于数学研究。第一个提出用从0(表示“不会发生”)到1(表示“肯定会发生”)的数字表示概率的人正是卡尔达诺。根据这种方法,硬币正面朝上的可能性可以表示为1/2。
这种表现形式直截了当,但是除了为预测行为奠定数学基础之外,卡尔达诺还有其他的贡献。[卡尔达诺应该没有使用“概率”(probability)这个词。从14世纪开始,法语中就出现了这个词,意思是“不确定,但是有可能”。至于具有现代数学意义的“概率”概念,最早的使用记录只能追溯至1692年。]套用他处理抛硬币时使用的那个方法,我们可以说,从我们现在使用的一副普通扑克牌(不包括大小王)中抽出某一张牌的可能性是1/52。
卡尔达诺还提出了计算组合概率的两个重要方法。后来的事实证明,这两个方法对于所有赌博游戏玩家来说都具有非常重要的意义(别忘了,卡尔达诺不仅是一名数学家,还是一名狂热的赌徒)。第一个方法可以帮助我们计算得到多个可能结果的组合概率。比如,根据卡尔达诺最初的理解,我们知道掷一次色子得到任何特定点数(例如6)的概率是1/6。但是,如果你想知道得到1点或者6点的可能性,答案就应该是2/6,也就是1/3。
卡尔达诺还证明,计算两枚色子掷出相同点数(例如在双色子游戏中掷出两个6点或者两个1点)的组合概率的方法是将两个分数相乘,也就是1/6×1/6,即1/36。因此,得到某个相同点数的可能性只有1/36。此外,他还发现,这与用两枚色子掷出一个1点和一个6点略有不同。要得到后面的结果,一共有两种方法:第一枚色子得到1点,第二枚色子得到6点,或者第一枚色子得到6点,第二枚色子得到1点。因此,概率是1/36 + 1/36 = 2/36,即1/18。
卡尔达诺最巧妙的一个发现是计算双色子游戏中任意一枚色子得到6点的概率。也就是说,我掷两枚色子,至少有一枚掷出6点。至于是一个6点还是两个6点,以及哪枚色子得到6点,我都不在乎。我们经常会遇到这种组合概率,而人们的自然反应是使用加法。每枚色子得到6点的概率都是1/6,因此第一反应是把它们加到一起。但这种做法显然是错误的,否则,只需6枚色子就能确保得到一个6点。而玩过色子游戏的人都知道,真实情况并不是这样。
现在的问题是要想办法表示“任意一枚”的可能结果。卡尔达诺的高明之处在于他发现,这个问题可以先转化为“两枚色子都没有”的问题,再用他发明的方法,即用乘法算出概率。如果一枚色子得到6点的概率是1/6,那么结果不是6点的概率就是5/6。因此,两枚色子都没有掷出6点的概率是5/6×5/6,即25/36。也就是说,两枚色子中有任意一枚掷出6点的可能性是1 – 25/36,即11/36。与用一枚色子掷出6点的概率相比,前者比后者的两倍(12/36)还小。随着色子的数量增加,这个概率将会趋近1(也就是肯定有色子掷出6点),但永远不会等于1。因此,即使同时掷出很多枚色子,也有可能没有一个6点。
在卡尔达诺之后,人们对他的研究成果进行了完善和发展,其中最著名的是法国数学家布莱瑟·帕斯卡和皮埃尔·德·费马,两人合作解决了一个众所周知的难题,从而让概率变成一个深受保险业欢迎的工具。他们解决的那个难题叫作“点数分配问题”。两名势均力敌的玩家因为一笔奖金而“激战”,根据规则,点数首先达到某个数字的玩家获胜。但是,如果他们在游戏结束时还没有决出胜负,该怎么分配那笔奖金呢?
假设每赢一局就得一点,在游戏结束时,一位玩家有12点,另一位玩家有7点。帕斯卡认为,要想合理地分配这笔钱,就需要考虑若游戏可以一直持续下去直至两人决出胜负,每名玩家需要赢多少局才能获胜。假设设定的目标是15点。在这种情况下,第一位玩家只需再赢3局就可以获胜,而第二位玩家还需要再赢8局。帕斯卡根据双方获胜还需要赢得的点数,考察了接下来可能发生的情况,然后用数学语言给出了一个公平分配奖金的方案。他提出的其实是一个叫作“期望值”的概念。所谓期望值,是指根据预期,某个可以产生随机结果的过程在连续重复多次后可能得到的结果。
下面我举一个非常简单的例子。假设游戏规则要求你连续掷色子10次,然后根据掷出的平均点数获得相应的现金。赌注设为多少时,这个游戏才值得参与呢?常识告诉我们,我们赢到的钱可能是概率的中值。难得的是,这次我们的常识是正确的(在涉及概率时,常识往往并不可靠)。你也许会不假思索地回答3,因为3是6的一半。但是,如果我们把1—6这6个值排成一排,就会发现中间值应该是3和4的平均值,也就是说期望值是3.5。
我们也可以通过一种更严谨的方式来考虑这个问题。掷出1点的可能性是1/6,掷出2点的可能性是1/6,以此类推,掷出6点的可能性也是1/6。求1×1/6 + 2×1/6 + 3×1/6 + … + 6×1/6的和,得数为21/6,即3.5。既然你有可能赢得的预期奖金是3.5美元,那么赌注低于这个金额都是可以接受的。在任意一局中,你都有可能输钱,但是只要玩的局数足够多(并准备足够多的本金),最终的赢家应该还是你。
计算交易期望值的概念绝不仅限于赌博,它是各种现代金融系统的基础,其中最典型的例子就是保险公司。它们就像赌博玩家。保险公司通过设定赔率,保证即使自己在某一“局”(他们称之为“保险单”)赔钱,也总体来说一定会赚钱。当然,赌场也是这样。重要的是,这个计算方法可以用于权衡不同的选择方案,并帮助我们做出最有利的决定。
比如,假设你有两个可能的投资方案。一个投资方案有1/2的可能性赢利1 000美元,有1/2的可能性不赢利;另一个投资方案有1/4的可能性赢利1 900美元,有3/4的可能性不赢利。哪个投资方案更有利呢?我们可以用概率乘以投资结果的方式计算出期望值。如果选择第一个投资方案,期望值就是500美元,而第二个方案的期望值是475美元。因此,第一个投资方案对你更有利,尽管第二个方案有可能赢利更多。如果某个投资方案会产生不止一个可能的结果,就要把发生这些结果的可能性加到一起。
同其他基于概率的预测方法一样,期望值也没有魔力,无法完成不可能的任务。期望值不会告诉你掷一次色子能赢得什么,但是只要你掷色子的次数足够多,就可以根据期望值预测可能的结果,至少在公平游戏中可以做到这一点。伯努利家族的一位才华横溢的成员指出,在某些情况下,期望值也不可靠。
在介绍伯努利的发现之前,我们先设想一种十分荒谬的彩票,以此说明期望值这种简单的计算方式有时未必有效。(我之前举的例子都是碰运气的游戏,在这些游戏中我们可以计算出精确的概率。同样的方法也可以应用在商业投资、购买保险等方面,但是此时,我们只能根据具体情况对概率做出估计。)
这种彩票有两种票面,价格都是10美元,但是第一种票面有9/10的概率赢得11.11美元,而第二种票面有1/100 000的概率赢得100万美元。所以,这两种票面的期望值都是10美元。期望值与票面价格相同,对于彩票而言是非常难得的。在彩票与赌场等赌博游戏中,期望值通常必须低于票面价格,这样经营者才有利可图。但是,这种彩票的经营者非常慷慨。因为这两种票面的期望值相同,所以我们在购买彩票时应该不会过于关注选择哪一种。但是,这两种票面带来的结果似乎大不相同。结果是否诱人,决定因素似乎不是期望值,而是你的个人情况。到底选择哪一种票面,可能要看10美元在你的日常生活中具有什么样的意义。
为帮助大家更好地理解这一点,我举一个更夸张的例子。我在讲座中谈到我的《色子世界》这本书时,经常会跟观众做一个叫作“最后通牒博弈”的心理游戏。心理学家经常通过这个实验告诉大家,经济学家根本不了解人的心理(心理学家都喜欢揭经济学家的短儿)。通常,这个游戏会设立一笔小奖金(例如1美元),由两名玩家展开博弈。第一名玩家告诉第二名玩家这笔钱的分配方案,第二名玩家可以说“行”或者“不行”。如果第二名玩家说“行”,这笔钱就会按照第一名玩家制订的分配方案进行分配。如果第二名玩家说“不行”,那么他们两个人都不会有任何收获。
经济学家和逻辑学家都认为,只要第一名玩家不打算独吞这笔钱,第二名玩家就会接受他提出的任何分配方案,因为拒绝接受意味着一分钱也拿不到,这样的决定似乎太不合理了。你可以问任何人一个问题:“如果有人白送你一些钱,你会拒绝吗?”答案通常是:“当然不会!”但是事实上,如果第一名玩家分给第二名玩家的钱低于奖金总额的30%,第二名玩家通常就会拒绝接受。这个数字适用于美国人和欧洲人。不同国家的人对分配方案有不同的要求,但是绝大多数人都对分配比例有一个最低要求。为了惩罚另一位玩家的不公平做法,人们宁愿承受一定的经济损失。但我们也可以利用这个游戏,反过来证明心理学家对人们心理的把握也不是很准确。
在玩完传统意义的最后通牒博弈游戏后,我请参加讲座的观众在脑海里重玩这个游戏,但这次的奖金不是心理学家提供的,而是一位大富豪,奖金额增加至1 000万美元。(事实上,我在做这个实验时,通常会把奖金设为1 000万英镑,但结果没有什么不同。)现实点儿说,如果第一名玩家分给第二名玩家10万美元,第二名玩家很可能不会拒绝,尽管他只能得到总奖金的1/100,而第一名玩家能得到990万美元。因此,我让观众都站起来,然后按照由多至少的顺序,告诉他们可以从这1 000万美元中分得的金额。我还告诫他们要诚实,一旦觉得我给出的金额低于他们愿意接受的最低值,就坐下来。
做实验时,我们使用的不是真钱,因为我仍在苦苦寻找愿意资助这项实验的大富豪。我觉得,由于不是真金白银,很多人夸大了他们拒绝接受的金额。但是,通常情况下,在金额高于50 000美元时决定坐下来的人不是太多;在金额降到10 000美元以下、5 000美元以上时,大多数观众都会坐下来;等到金额降至500美元时,站着的人已经寥寥无几了。当我说出1美元时,只有1—4名观众仍然站着。一想到人们为了报复对方而宁愿放弃(至少他们声称如此)一大笔钱,我就觉得这个实验非常有意思。我在前面介绍的那种奇怪的彩票,给了人们两个选择:一个是有9/10的概率赢得11.11美元,另一个是有1/100 000的概率赢得100万美元。结果,人们的反应与他们在最后通牒博弈游戏中的表现是一样的。在最后通牒博弈游戏中,最后仍然站着的人通常是青少年。1美元对于他们的意义远胜于在中年观众心目中的价值。
说到这里,我们回过头去介绍伯努利家族的那名成员,看看他对期望值概念的缺陷有哪些认识。这名成员就是数学家尼古拉斯·伯努利,他是约翰·伯努利的儿子,丹尼尔·伯努利的弟弟。(在这个成就显赫的瑞士家族中,丹尼尔的名气最大。)尼古拉斯研究过一个简单游戏的结果,在这个游戏中,我们需要做的就是记录抛硬币得到的一系列结果。玩家能赢多少钱,取决于他抛硬币的结果。只要抛出反面,奖金就会加倍,游戏继续进行。一旦得到正面,游戏立刻结束,玩家的收获只是当时的奖金。
假设我们开始时的奖金是1美元。如果第一轮抛硬币的结果是正面,你就会赢得1美元;如果是反面,奖金就会加倍,而且你可以再抛一次。如果第二轮的结果是正面,你就会赢得2美元。如果你坚持到第三轮且得到的结果是正面,你就会赢得4美元。如果你第三轮得到反面,并且第四轮的结果是正面,你就可以赢得8美元,以此类推。尼古拉斯指出,最有意思的是,把奖金定为多少,你才愿意参加游戏?我们应该采取的做法是计算期望值,如果奖金低于期望值,就值得参与。
要计算出期望值,我们需要知道每次抛硬币时第一次出现正面的概率,然后用它去乘以此时的盈利,再把所有可能的结果加到一起。第一轮抛硬币时,得到正面的概率是1/2。在这种情况下,奖金是1美元,它贡献的期望值是1/2×1美元= 0.5美元。第一轮得到反面且第二轮得到正面的概率是1/2×1/2 = 1/4,此时的奖金是2美元。因此,它贡献的期望值是1/4×2美元= 0.5美元。第三轮得到正面的概率是1/8,奖金为4美元,期望值是1/8×4美元= 0.5美元。我们已经可以看出其中隐藏的规律了:每一轮的期望值都是0.5美元。
因此,只要把所有可能盈利的期望值加在一起,就可以计算出总期望值。也就是说,总期望值为:
(1/2×1美元)+(1/4×2美元)+(1/8×4美元)+(1/16×8美元)+…
=0.5美元 + 0.5美元 + 0.5美元 + 0.5美元 + …
别忘了,“…”表示继续下去。因此,上面的计算结果表明,无论参加这个游戏需要投入多少钱,根据期望值,你都应该参加。例如,即使参加这个游戏需要投入100万美元,你也应该参加,因为0.5美元 + 0.5美元 + 0.5美元 + 0.5美元 + …的值大于100万美元,实际上,这个和比任何数都大。这个级数的极限是无穷大,也就是说,这个游戏的期望值是无穷大。但是,尼古拉斯·伯努利强调的问题是,只在同样的过程重复很多次时,期望值才真的有效。对于具体某一轮的情况,期望值的效果就不那么好了。
很难想象有人愿意拿出100万美元,去玩一个只有50%的概率赢得1美元的游戏。其实,玩家只要想一想他们输钱的可能性,就会知道该怎么做。例如,我们知道,最多赢1美元的概率是50%(即1/2),最多赢2美元的概率是75%,最多赢4美元的概率是87.5%,最多赢8美元的概率是93.75%,最多赢16美元的概率是96.875%。也就是说,即使拿出16美元参加这个游戏,亏本的风险也很大。
因为觉得好玩,我刚刚又玩了一次抛硬币的游戏。想知道结果吗?我在第三轮抛出了正面,这意味着我可以赢得4美元。所有利用概率工具的人都要注意使用它的场合。计算两枚色子中至少有一枚色子掷出某个点数的概率并没有多大的难度,但是我们经常需要这种能力(例如在玩双陆棋时)。当我们在权衡是否要做出某种经济上的承诺时,我们也经常需要计算期望值。但是,考虑是否在某个游戏或投资活动中使用概率工具,不能仅依据“大量人口的平均结果”或“大量交易的平均情况”,还要考虑它可能造成的后果。
例如,某个银行系统通常运行顺畅,但是若每完成10 000次交易就把账户数据全部清除,我们对此肯定无法接受。如果你的账户正好是那个不幸被清空的账户,即便这套系统完美地完成了99.99%的交易,也无法平息你的怒火。因此,即使99%的案例都得到了妥善处理,性能统计的结果仍然取决于那些处理不当的案例会造成什么样的后果。如果是快餐店没有按时送来汉堡这种无关痛痒的事,这样的统计结果不会导致大问题。但如果是医院出具的常规体检报告中的死亡可能性,就肯定会让人十分担忧。
实践证明,在涉及大量数据或者大量调查对象时,基于概率的统计可以发挥极其重要的作用。无论这些调查对象代表的是“美国人民”还是“汽缸中的气体分子”,只要可以忽略统计方法对个体造成的影响,我们就可以借助数学工具对这些调查对象代表的群体行为做出准确程度较高的预测。
苏格兰物理学家詹姆斯·克拉克·麦克斯韦是在科学研究中最早大量使用数学工具的物理学家之一(我们将在下一章深入讨论),也是最早运用统计方法研究气体属性的物理学家之一。他选择了一些有强烈气味的物体作为研究对象。这些物体的气味(难闻或者好闻并不重要)传播到人的鼻子里,为什么需要那么长的时间呢?在19世纪,人们普遍认为气体分子的传播速度非常快,每秒可以运动几百米(或几百码)的距离,但是气味通常需要几秒钟的时间才能充斥整个房间。
德国物理学家鲁道夫·克劳修斯认为,这是因为分子发生碰撞的缘故。虽然分子的运动速度的确非常快,但是它们彼此之间不停地碰撞,以致改变了运动方向。所以,一堆新的分子(“气味分子”)需要很长时间才能完全扩散到空气中。
克劳修斯认为所有气体分子的运动速度都一样。但是,麦克斯韦认为这个说法没有道理,他更倾向于气体分子的运动速度各异,有的较快,有的较慢,速度分布曲线的峰值在某个区间范围内。麦克斯韦认为,如果确实如此,那么只有借助统计法,才能全面了解气体分子的特性。这就是所谓的“麦克斯韦分布”。尽管气体分子的运动速度随温度的变化而变化,但是麦克斯韦分布却找到了一个可行的计算方法。从此以后,人们掌握了预测气体变化特点的能力。
这种通过统计掌握多个变化个体的普遍情况的能力,不仅可以用来研究分子的特点,还可以用来研究人的行为。掌握了这种技能之后,我们才有可能了解大型人群内部正在发生的变化,并完成各种各样的预测,例如服装销量、药品需求等。但我们必须清楚,它也有局限性。即使是分子的统计特性,也有可能造成误导性的结果。我们以热力学第二定律为例。该定律称,热由高温物体向低温物体传递,封闭系统中的无序状态会保持不变或者增加。人们往往认为这是一条颠扑不破的真理,但事实上,它也是建立在统计学的基础之上的。
比如,根据这条定律,如果我们将两个盒子之间的隔板去掉,经过一段时间之后,两个盒子中温度不同的气体将混合到一起,变成均匀气体,其温度介于之前的两个温度之间。这是根据热力学第二定律得到的结果(两组有序程度较高的分子通过温度的选择,变成了无序的混合体)。但是,从理论上看,这些气体有可能是在重新建立短暂的完全随机的温度阶梯。一个盒子中的高温分子有可能碰巧比另一个盒子多,由于分子的数量非常多,这种偶然性不大可能产生非常大的影响,但是这种情况的确有可能发生。统计数据表现的是总体可能性,而不是必然性。
在使用统计方法研究人的活动时,我们有可能把典型规律套用到独特群体(例如上文所说的那些高温气体分子)上,还有可能认为关于一群人的统计规律适用于某一个体。我们无须考虑气体中单个分子的特性,因为所有分子基本上都是相同的,但人与气体分子不同。统计学历史上有一个非常有名的案例。1999年,一个英国母亲萨莉·克拉克被判定杀死了她的两个幼子,并因此在监狱中服刑近4年时间,直到这项判决被推翻之后才重获自由。克拉克含冤入狱的原因是,法庭在运用统计学工具时犯了严重的错误,不但相关人员的计算能力不过关,他们还将统计得出的整体普遍情况与个体的特定情况混为一谈。
这次审判是在克拉克的第二个幼子死亡之后进行的。造成克拉克的两个儿子在不足3个月时就夭折的罪魁祸首是婴儿猝死综合征(SIDS)。著名儿科专家、教授罗伊·梅多爵士应检方邀请,作为专家证人参与了此案的审判。不幸的是,梅多在概率与统计学方面的知识并不全面。研究表明,在没有其他影响因素的情况下,一个家庭中发生婴儿猝死的概率是1/8 543。梅多告诉陪审团,克拉克的两个儿子都死于婴儿猝死综合征的概率是这个数的平方,约为1/73 000 000。梅多声称,这种情况堪称百年不遇。
这个证据在克拉克案的判决中发挥了重要作用,但是其中存在着巨大的错误。卡尔达诺早就发现,两个无关事件的组合概率的正确计算方法是乘法。因此,我们知道,用一枚色子掷出6点的概率是1/6,连续掷出两个6点的概率是1/6×1/6 = 1/36。两次投掷是彼此不相关的两个事件,即第一次投掷不会对第二次投掷的结果产生任何影响。
但是,这次审判却忽略了一个问题:这个数学工具并不适用于婴儿猝死的情况。有充分的证据表明,这两起婴儿死亡事件并非彼此无关。如果一个家庭中发生过婴儿猝死,那么这类事件再次发生的可能性要远远高于普通家庭发生婴儿猝死的可能性。真相澄清后不久,有人公开发表研究结果,称一个英国家庭发生两个婴儿猝死事件的可能性并不是百年不遇,而是每18个月就有可能发生一次。
除了概率计算的错误,这起案件还存在其他问题,他们误认为“某件事偶然发生的概率很低”的意思等同于“发生某件事的原因并非偶然”。这是一个巨大的逻辑错误,没有任何道理可言。以“欧洲百万”乐透游戏为例,虽然中大奖的概率仅为1/116 531 799(这个可能性低到令人发指的地步),但是在大多数情况下,每周都会有幸运儿产生。由于参与的人非常多,所以不可能发生的事件也会时不时发生。我们并不能因为某件事发生的可能性非常低,就认为它不会发生。
即便涉及的人群不大,低概率事件也可能会发生。除忽视了这个简单的事实以外,他们还犯了一个严重的错误。婴儿猝死的概率是1/73 000 000(这个概率其实并不准确),但是他们居然因此认为,如果73 000 000个婴儿中的其他72 999 999个婴儿死亡,就一定是死于谋杀。检方应该认真权衡的两个概率是婴儿猝死的概率与一个英国家庭中母亲连续杀死两个孩子的概率,后者肯定不是72 999 999/73 000 000。统计学可以在科研(和法律事务)中发挥巨大作用,但前提条件是要正确使用。
显然,适用于热力学第二定律的统计学工具不能用来研究人的行为,尽管这个想法颇具诱惑力。人们倾向于“集体审议”或者聚众闹事这类行为,尽管其中有心理学原因,但这也说明一群人聚在一起,其行为的复杂程度不是一堆气体分子可以比拟的。在美国科幻小说家艾萨克·阿西莫夫以心理历史学的概念为基础创作而成的“基地”系列小说中,人们可以用一种异常强大的统计学工具研究某个文明,预测它未来的发展情况,甚至可以具体到某个事件。但是,现实中却永远不可能找到这样的统计工具。
阿西莫夫的创作灵感来自爱德华·吉本的经典历史学著作《罗马帝国衰亡史》。这部著作似乎告诉读者,人们可以从具体事物中找到线索,从而预见一个帝国走向衰亡的结局。阿西莫夫把这个(本来就不可靠的)概念拓展成一个研究行为特性的纯粹的数学工具。但是,为人们在现实中利用统计数据来预测复杂事物(例如文明)的未来情况时,就会像那些试图进行长期天气预报的人一样,面临同样的困难:系统过于复杂,涉及的变量过多,以致难以做出有意义的预测。在数学上,这被视为一种高度混乱的情况。这意味着开始时发生的小变化(在研究对象是一群人时,这些小变化通常是由个人的行为引起的)会对结果造成巨大的影响。
概率和统计学已经成为许多科学家手中威力巨大的武器。但是,事实证明,如果这些科学家的数学造诣不深,滥用统计工具就会造成一系列问题。毫无疑问,数学很有用,在科学研究中可以发挥重要作用。但是,如果过于重视统计学的“证据”作用,不仅对科学研究没有任何益处,还会导致我们在得到看似正确的数据之后做出错误的判断,还自以为揭开了天地万物的奥秘。
有的问题根本不是数学的错,而是数学工具应用不当造成的。我在《超感官》一书中讨论的超自然研究就经常犯这样的错误。假设我们正在测试心灵感应能力。我们预先安排了一场选拔测试,得分高的人才能留下来,成为实验对象。只要我们在正式测试时不考虑他们选拔测试的分数,这种做法就无可厚非,但是,选拔测试的得分通常会被计入正式测试的成绩。这些人之所以能入选,是因为他们的选拔测试得分很高,因此他们肯定会使测试结果偏向肯定性的一面。
这种“摘樱桃”式的有选择性地使用数据的行为,是统计中的一个常见错误。如果只选择那些对假设有利的数据,忽略或者不重视其他数据,最后得到的结果就会毫无用处,但这种情况却经常发生。有时候,这是一种明目张胆的有意行为;有时候,例如选拔测试,则是无意行为,测试者甚至不知道他们的行为已经导致结果发生了偏差。还有一种可能的情况是想方设法舍弃一些数据。如果实验出了问题,那么在审核这些数据之前将它们舍弃就不会有任何不妥。但是,数据一经审核就不应被舍弃,否则就会有选择性使用数据之嫌。有时候,我们甚至会下意识地找一个理由,去舍弃那些不利于预期结果的数据。
早期心灵心理学实验者J. B. 莱因也犯过一个无意识的“摘樱桃”的错误。莱因在历时多年的实验中,利用一套“齐纳”牌,针对多名个体进行了多次心灵感应测试。这套牌共计25张,每张印有一个符号,共有5种符号。莱因要求实验对象通过心灵感应,将牌上的符号告诉另一个人。实验中,一位名叫A. J. 林茨迈耶的实验对象连续15次猜中答案。于是,莱因欢欣鼓舞地宣布:“连续15次准确猜出牌上符号的概率是(1/5)15,约为300亿分之一。”
在这个实验中,“摘樱桃”的错误很难被人发现,错误的原因在于莱因在多轮实验中选择了一轮。如果他真的只做了一轮实验并且实验对象连续猜对了15张牌,他说的概率从技术上讲就是正确的,但是只做一轮实验还不足以保证结果的有效性。也就是说,除了这轮成绩优秀的实验以外,他还做了多轮实验。连续猜对15张牌的那轮测试并不是随机抽取的,而是因为它产生了这种优秀的结果才被选中了,这种行为本身就是在“摘樱桃”。
除了“摘樱桃”,应用不恰当统计方法的错误也比比皆是,这是因为统计方法有很多种,但并不是所有方法都适用于所有情况。最常见的问题也许是样本过小和样本选取不当。很多“软科学”实验的参与者比较少,往往很难得出明确的结论。样本选取不当的问题之所以经常发生,原因是人们在选择参与者时往往会选择有利于某种观点的人。曾经有人在调查最受欢迎汽车的活动中,选择的样本都是当时拥有某个特定车型汽车的人,这是一个非常典型的样本选取不当的例子,这个样本肯定不能代表所有人。
实验设计也有可能影响结果的公正性。在心理学的某些领域,实验者往往希望实验结果与他们的预期之间只有非常细微的偏差。假设在完全随机的条件下,我们预期某个实验得到A、B两种结果的机会各占一半。于是,我们准备进行多轮实验,以便得到更准确的数据。比如,进行25轮实验。选择做奇数轮实验,两种结果就不可能恰好各占50%的比例。
从很多实验可以看出,实验者收集的数据很可能是机缘巧合的结果。经常有报告宣称某种超心理能力肯定存在,因为碰巧出现这些结果的概率非常低。但是,实验者在发布这些信息的时候有些操之过急。原因之一在于,心理学家预防巧合发生的力度远小于物理学家。如果出现随机条件下发生概率为5%的结果,心理学实验人员通常就会认为这不是一种随机结果,尽管这种小概率结果经常出现。更糟糕的是,仅仅证明实验结果可能不是随机结果,往往不能证明某个假设是真实的,也就是说,不能证明这些是超心理能力作用的结果。
虽然研究人员使用统计工具的过程无可挑剔,但是由于数据解读的问题,他们仍然很难解释实验结果的含义。欧洲核子研究中心大型强子对撞机寻找希格斯玻色子的项目显然就遇到了这个难题。希格斯玻色子是粒子物理学标准模型预言的一种粒子,这种粒子可以使其他粒子具有质量。发现希格斯玻色子与在野外发现一只稀有的老虎是不同的。看到老虎,你可以捕捉、拍照或者取血样并验DNA(脱氧核糖核酸),以确定你看到的确实是一只老虎。但是在寻找希格斯玻色子时,这些方法全部失去了作用。别的不说,实验并没有真的让我们看到希格斯玻色子,而是其他粒子留下来的间接痕迹,实验者认为这些痕迹是希格斯玻色子衰变造成的。由于不是直接证明,实验人员只能通过发生概率来解释,问题也随之而来了。
科学家经常用“西格玛”(σ)这个符号表示标准差这个统计量度。如果把某个事件随机产生某些结果的频率绘制成图,往往就会得到一种叫作正态分布的钟形曲线。比如,手机的重量大多位于某个范围之内,均匀地分布在平均重量的周围。
并不是所有的随机事件都遵循正态分布的规律,因为根据这些信息绘制成的图形不是钟形曲线。有的教科书以人的身高为例,介绍数据集的正态分布特点。但是,这个例子并不恰当。美国男性公民的平均身高大约是5英尺6英寸[2],从这个数字就能看出一些问题,因为典型美国男性公民的身高(用统计学术语来表示,就是中位身高)超过这个高度。分布图的右侧表示身高越来越高,但在超过平均身高1英尺之后,人数就变得非常少了,超过6英尺6英寸的人更是寥寥无几。然而,分布图向左延伸的幅度较大,最左侧的身高比平均身高低2英尺多。这个图像并不是真正的正态分布曲线,而是向右“倾斜”,在左侧留下了一个扁扁的长尾巴。
标准差是分布形态的一个量度(只在正态分布这种对称分布中才有效)。标准差表示数据的离散程度,可以告诉我们数据是四处分散还是聚拢在平均数周围。如果数据的离散程度是一个标准差,则表示作为随机事件,统计结果有略高于68%的可能性会落在距离平均值一个标准差的范围内。如果数据的离散程度是两个标准差,统计结果有约95%的可能性落在距离平均值两个标准差的范围内。心理学等“软科学”经常采用这种统计方法。但希格斯玻色子数据分布的离散程度是5个标准差。也就是说,我们所寻找的事件落在距离平均值5个标准差范围之外的概率是350万分之一。但是,如果从他们发现的就是希格斯玻色子的置信度这个角度来考虑,又该如何解释这个实验结果呢?
因此,媒体在报道这项研究时,不得不面对一个可怕的雷区。数据表明大型粒子对撞机给出的结果是一个巧合的可能性非常低。但是,与萨莉·克拉克案一样,我们也不能反过来说,因为巧合发生的可能性非常低,所以希格斯玻色子存在的可能性非常高。数据并不能证明希格斯玻色子可能存在,而只能表明这些数据事出有因的可能性非常高,而且我们猜测造成这个结果的“因”可能就是希格斯玻色子。
更糟糕的是,两者之间的区别十分微妙,几乎不可避免地会造成误读。有的新闻媒体报道,实验结果表明,不存在希格斯玻色子的可能性是350万分之一。但是,统计数据实际上表明,这些数据事出无因的可能性是350万分之一。这项统计指标并没有说实验结果是巧合导致的可能性非常低,而是说在没有原因的情况下产生这些数据的可能性非常低。这就好比一个人说“从这些结果看,事出无因的可能性非常小”(错误),另一个人说“考虑到这是一个百分之百的随机事件,出现这些结果的频率非常低”(正确),两个人的说法是不一样的。所强调的内容有微小的不同,对于科研的意义却相距甚远。
一言以蔽之,只要运用得当,概率与统计学可以和现实世界实现完美的契合。这样说是有道理的。我们不是利用抽象的数学为现实世界的某个过程建模,而是测量现实世界的某个基于数据的事实或准事实(例如,“抛一枚质地均匀的硬币,得到正面和反面的概率都是1/2”),并在确认这个数据事实成立之后才使用相关的计算方法。与其说我们利用数学探索宇宙的奥秘,不如说我们是在使用数学研究数字的秘密。
即使在使用概率和统计学这两大武器时没有犯错误,我们也会遇到一些问题,主要是因为我们无法轻而易举地洞悉一切。我们通过规律去认识、了解周围的世界,即使有的时候根本不存在任何规律,我们也能“找到”规律。尽管我们知道事件的随机性与非正态分布是它们的真实属性,但我们却感到不舒服。正因为如此,即使专业人士在使用基于概率的统计工具时,也必须小心谨慎。
实践证明,对于以数学为基础的物理学(不仅仅是寻找希格斯玻色子)而言,概率与统计的重要性在不断增加。但是,人们还没来得及证明概率是构成所有物质的粒子的核心属性之一,数学就已经把科学思维推到了另外一个临界点,一个光芒四射的临界点。
[1] 在三牌赌皇后游戏中,作弊者用一只手拿着三张牌,然后用另一只手将这三张牌展开。在操作时,要让其他人以为他每次拿的都是最下面那张牌。但是,通过不断练习,作弊者可以从最上面拿牌而不被人发觉,尤其是当这些牌稍稍弯曲时,作弊的效果更好。
[2] 1英尺约合30.5厘米,1英寸约合2.5厘米。——译者注