4-1 第一个孩子是女儿,那么下一个孩子是男孩还是女孩?
在第1讲和第2讲中,我们运用了客观的数据来设定先验概率。接下来,在第3讲中,由于没有客观数据可用于先验概率的设定,于是我们主观地设定了先验概率。在第4讲中,将带领大家进一步了解神奇的贝叶斯推理方法。请阅读以下问题设定。
问题设定
假设夫妻俩的第一个孩子是女儿。那么,接下来生的孩子依然是女儿的概率为多少?
也许你会怀疑,上述问题设定是否有实际意义?很多人会觉得,这个设问实在太模糊,以至于让人根本不知该如何作答。换句话说,人们会认为“每一次生男生女的概率各为一半。就算第一个孩子是女儿,但下一个孩子的性别与这根本无关,所以接下来依然是女儿的概率也还是0.5吧”。
事实上,笔者曾经将该问题设定的贝叶斯推理写入某本书,并收到了读者写来的表示反对的邮件。邮件内容是“我的医生朋友说,事实上,并没有容易生男孩、容易生女孩这回事,生男生女的概率都是一样的”。
当然,我知道这位读者想要表达什么,只是我认为,他并没有认真思考那本书的解说内容,他的思考始终处于停滞状态,只是一味地表示反对,对此,我感到有些遗憾。
第一,从统计学观点来看,生男生女的比率并不是各占一半的。事实上,生男孩的比率会稍微高一点。在日本,生男生女的概率比约为51:49。即使具体比率上有所差别,但“男孩的概率高一些”这一特性,是全世界共通的。不管原因如何,在生物学上,男女的出生率有着其固有的结构,因此,不能说这种现象与投硬币有着同等的概率。
第二,那位读者的医生朋友观察的是“关于多数夫妻生下来的多数孩子的样本统计”,而不是“针对某对特定的夫妻所生的孩子进行的统计”。即使人类整体在统计时呈现出51:49这样稳定的比率,但某一对特定夫妻所生孩子是男还是女的问题上,并不一定遵循这个比率。这对夫妻有其固有的特性,因此也不能否定是否存在“生女孩稍微容易一点”或“生男孩稍微容易一点”这种性向的可能性。
标准统计学(又称内曼-皮尔逊统计学)在阐明全人类范围内的男女比例这一性向问题时是有效的,但不能用来解答“特定的某一对夫妻更容易生男孩还是女孩”的问题。这是因为,如果不使用达到一定程度的大量数据,就不能运用标准统计学来推断,关于这一点,在第8讲中会进行详细的解说。理由是,对于某一对特定的夫妻,他们所生的孩子数量,并不足以用来进行统计验证;而且,在生下大量的孩子的过程中,随着年龄的增长,身体条件也会发生变化。
然而,即便是这种对于特定夫妻的生育问题的推断,也可以使用贝叶斯推理来完成。理由在于,贝叶斯推理在某种意义上来讲是一种“宽松”的推断。所谓的“宽松”是指:设定不可思议的先验概率,并且其数值可以是主观性的。关于这一问题设定,下文将按照明贝叶斯推理的独特顺序来进行说明。
4-2 将“概率的概率”设置为“先验概率”
首先,关键的一点在于类别的设置。在本案例中,我们需要设置的类别是“该夫妇所生的孩子为女孩的概率”,我们用p来记录这一概率。
有的读者可能会条件反射般地认为“概率p难道不应该是0.5吗?”关于这一点,在上节中已经讲过,在统计人类这一整体时,可以认为生男生女出的概率比为1:1(或近似1:1),但具体到某一对特定夫妇身上的话,就未必是这个结果了。
因此,“该夫妇所生的孩子为女孩的概率”p,可以是0到1之间的任意自然数。此时,用于表示该夫妇类别的p的取值范围为0≤p≤1,可取的数值有无限个,并且连续分布。据此可以设置类别p,并进行贝叶斯推理,这项工作的难度较大,具体将在第19讲中解说,本节仅做简要说明。
简单来说,可以设置3个p的值,分别为0.6、0.5、0.4。当然了,只要满足条件0≤p≤1的值都可以选取,并且这样做更加符合常理,而本讲为了让大家理解贝叶斯推理的特质,需要首先保证易于理解的问题,因此,只选取三个数值进行探讨。
现在我们已经将“该夫妇所生的孩子为女孩的概率”p设置为0.6、0.5、0.4这三种可能,那么该夫妇一定属于这三种中的一种。也就是说,当p=0.6时,该夫妇生女孩的概率为0.6,当p=0.4时,该夫妇生女孩的概率为0.4。其中,前者说明“该夫妇比较容易生女孩”,后者说明“该夫妇比较容易生男孩”。当然,如果p=0.5,那么说明“该夫妇生男生女的概率相等,各为0.5”。
下一步要做的与以往相同,就是为这三种类别分别设置先验概率。
在这种情况下,想要判断该夫妇究竟属于哪一个类别,是完全没有任何统计数据来支持的,因此依然采用上一讲中的“理由不充分原理”。如图表4-1所示,设置这三种类别的概率各为1/3。
图表4-1 根据理由不充分原理设置的先验概率
读到这里,作为初学者来说难以理解的一点是:为何设置“p=0.4的先验概率”的概率为1/3?可以这样理解:p本身就是一个概率,那么,“p=0.4的先验概率”的概率为1/3,便是“概率的概率”。对于这种思维方式,如果不习惯的话,确实会感到混乱。
理解时的关键是,p代表“生女孩”的概率,而先验概率1/3代表:三种类别的概率p的值,究竟哪一个才是真实的可能性。
换言之,先验概率表示:该夫妇属于哪一个可能世界的概率;概率p表示:该夫妇在各个可能世界中生女孩的概率。也就是说,这两个概率,是不同意义的。
上一讲的观点认为,类别(互不相同的可能世界)与概率是毫无关系的,而本讲中的类别则是通过概率p来表示的。也就是说,该夫妇“生女孩的概率”究竟为0.4?还是0.5?或是0.6?我们无从得知,只能进行推测罢了。于是,运用“理由不充分原理”,将每种情况的先验概率均设置为1/3。
对了,由于从统计学的观点来看待人类整体生男生女的概率问题时,p=0.5的可能性要远高于其他两种情况,那么,在设置先验分布时,也可以进行适当调整。例如,可以将“生女孩的概率为0.4”和“生女孩的概率为0.6”这两种情况的先验概率均设置为0.2,而“生女孩的概率为0.5”的先验概率则设置为0.6。(关于这一点,可在习题部分进行计算练习)
关于先验概率的设置,有一点与之前的内容略有不同:之前都是设置两个类别,而这次设置了三个类别。如果能够顺利理解本讲内容,那么今后即使设置再多的类别,应该也都不成问题了。
4-3 把“生女孩的概率”直接作为“条件概率”来使用
下一步,是与以往一样,按照类别进行划分,之后,设定能够引起特定行为的条件概率。在本案例中,这一步是十分简单的,这是因为“类别”本身成为其条件概率。
譬如,如果一对夫妇属于p=0.4的类别,那么,这对夫妇生女孩的条件概率便为0.4。那么,理所当然地,这对夫妇生男孩的概率则为1-0.4=0.6。把这以计算过程用图表4-2表示出来,如下所示。
图表4-2 这对夫妇生女孩?男孩的条件概率
这些概率与以往的一样,都是“有特定原因时的结果的概率”。这里的原因是指,“生女孩容易”或“生男孩容易”的情况,而结果是指“生了女孩”或“生了男孩”。
图表4-3中分列了3种情况,将这3种情况分别再分为2种,最终总共分为6种情况。
图表4-3 六种互不相同的可能性
接下来,按照图表4-4把6种情况下的概率分别填入其中。概率与之前的计算方法相同,通过计算长方形的面积获得。虽然概率最终的表现形式是分数和小数混杂在一起,可能会看不习惯,但这样可以简化后面的计算。因此,在阅读时请予以理解。
图表4-4 六种互不相同的可能性各自的概率
4-4 第一胎已经生了女孩,因此可以排除掉“不可能的情况”
目前的事实是,这对夫妇“第一胎生了女孩”。因此,第一胎生男孩这种情况被完全排除在外,这一情况反映在图表4-5中,如下所示。
图表4-5 根据信息限定可能性
现在已知,这对夫妇所生的第一个孩子是女孩,那么可能性便从6种减少到3种。换言之,这对夫妇属于3种情况中的其中一种。接下来,与之前一样,在保持原有的比例关系的基础上,使相加之和为1,恢复到标准化条件。
(左边长方形的面积):(中间长方形的面积):(右边长方形的面积)
=0.4/3:0.5/3:0.6/3
=0.4:0.5:0.6
=4:5:6
计算比例时,用4+5+6=15这一数字来进行除法运算,使之恢复到“相加之和为1”的状态。
(左边长方形的面积):(中间长方形的面积):(右边长方形的面积)
=4/15:5/15:6/15
=4/15:1/3:2/5
根据上述比例可计算出,后验概率为:
概率为p=0.4的后验概率=4/15≈0.27
概率为p=0.5的后验概率=1/3≈0.33
概率为p=0.6的后验概率=2/5=0.4
4-5 贝叶斯推理的过程总结
本讲中介绍的推理方法可用图解总结为图表4-6。
图表4-6 关于该夫妇类别的贝叶斯推理过程
从求取类别p的后验概率的过程中,我们能够明白些什么呢?只要看一看关于先验概率和后验概率的图表4-7,就能够自然而然地明白了。
图表4-7 关于该夫妇类别的贝叶斯更新
从该图解可以了解到:在生女孩之前,我们可以认为这3个类别的可能性都是对等的,概率分配均为0.33。但是,由于之后增加了“生了女孩”的信息,后验概率就变得不再对等了。p=0.5这一概率虽然仍为0.33,但p=0.4这一概率由0.33减少到0.27,而p=0.6这一概率则由0.33上升到0.4。即,与在增加“生了女孩”这个信息前相比,增加“生了女孩”这个信息之后,推算结果转变为“这对夫妇生女孩相对比较容易”。
接下来,需要指出的是,在这个案例中,客观概率与主观概率实际上是混在一起的。表示类别的概率p是一个客观概率。p=0.4的含义可以解释为:譬如由这对夫妇来投一枚硬币,正面朝上的概率为0.4,而他们抛出了结果为“女孩”,即概率为0.4的这一面。这个结果对于任何人来说,都是一个客观的概率。另一方面,先验概率和后验概率是依存于推算者心理的主观概率。其实,只要想起,最初是通过“理由不充分原理”,把先验概率设定为“对等”的事实,就很容易想通了。“只能先这么办了,暂时就先设定为对等吧”,这也意味着“概率”其实也是一种基于个人心里的想法,用“主观”本身这个词来解释这一现象,应该还是比较贴切的吧。
4-6 在计算“第二胎生女孩的概率”时,使用“期待值”
我们通过计算得到的后验概率为:
(类别p=0.4的后验概率)=0.27
(类别p=0.5的后验概率)=0.33
(类别p=0.6的后验概率)=0.4
以上数值为各个类别的概率,换言之,也就是“概率的概率”。数值分为3部分、内容详细,十分难得。但是,它并不能作为“第二胎生女孩的概率是多少”这个问题的答案。于是,让我们最后再来了解一下该如何回答这个问题吧。
在求“这对夫妇第二胎生女孩的概率”时,需要用到“平均值”这一概念。由于这也是概率方面的平均值,专业上把这个数值称为“期待值”。关于期待值的具体内容将会在第18讲进行详细介绍,在这里暂且用图解的方式,对其含义进行简单说明。
首先,在表示所有可能发生的情况(生了女孩的情况)的长方形中,画出填入了后验概率的图。这个图由3个长方形构成的。左边的长方形:纵向长度为类别p=0.4、横向长度为其后验概率0.27。正中的长方形:纵向长度为类别p=0.5、横向长度为其后验概率0.33。右边的长方形:纵向长度为类别p=0.6、横向长度为其后验概率0.4。因此,各个长方形的面积如下:
左边的长方形→0.4×0.27=0.108
正中的长方形→0.5×0.33=0.165
右边的长方形→0.6×0.4=0.24
对于这3个长方形,需要画出一个使横向长度之和与面积之和一致的长方形,即虚线长方形。这个长方形,横边的长度刚好等于1。其理由是,由于3个长方形的横边长度为各类别的后验概率,根据标准化条件进行相加,其结果为1。因此,虚线长方形的纵向边长的长度,与3个长方形的面积之和完全一致。这是“把类别平均化的数值”,即为“类别的期待值”(图表4-8)
图表4-8 计算类别的平均值
具体的计算过程如下所示:
(P的期待值)=0.4×0.27+0.5×0.33+0.6×0.4
=0.108+0.165+0.24
=0.513
因此,若把这对夫妇的类别(生女孩的概率)进行平均化,则得到结果0.513。这也能够成为解释“这对夫妇第二胎生女孩的概率”的理由。在第19讲中,会针对“满足类别0≤p≤1中所有p的设定”的例子进行说明。
第4讲·小结
1.用概率设定类别,设定其先验概率(因为无法获得数据,而采用了理由不充分原理将其设定为对等)。先验概率是“概率的概率”。
2.设定条件概率(设定类别概率本身即可)。
3.通过获得的信息(生了女孩)中,排除掉所有不可能的情况。
4.关于剩余情况下的概率数值,恢复标准化条件。
5.获得有关类别的后验概率(贝叶斯逆概率)。
6.根据获得的信息,先验概率更新为后验概率(贝叶斯更新)。
7.先验概率和后验概率都是主观概率。
8.因为获得了各个类别(由概率来表现)的概率,通过将其平均化(求期待值),来求类别的平均值。这正是第二胎为女孩的概率。
练习题
答案参见此处
本文将所有的先验概率都设定为均等数值,但这似乎不太妥当。比起其他可能性,p=0.5的可能性显然更大。因此,我们在此改变一下先前的设定,将先验概率分为以下三类:
类别p=0.4的概率→0.2
类别p=0.5的概率→0.6
类别p=0.6的概率→0.2
在此条件下,求以下过程中的后验概率。
各个类别的先验概率分别为,
(a)=()、(b)=()、(c)=()
添加信息后的条件概率分别为,
(d)=0.4,(e)=()
(f)=0.5,(g)=()
(h)=0.6,(i)=()
九种互不相同的情况的下,生女孩的概率分别为,
(j)=()×()=()
(k)=()×()=()
(l)=()×()=()
如果将“生女孩”的三种情况下的概率进行标准化处理,那么
专栏 column 贝叶斯是何许人也?
发现贝叶斯逆概率的人,名为托马斯?贝叶斯,英国人,生于1702年,卒于1761年。贝叶斯曾在苏格兰的爱丁堡大学学习神学和数学。后来,他继承父业,成为一名牧师。
贝叶斯一边从事牧师的工作,一边研究数学。这并不奇怪。因为在当时,侍奉神职的人们当中,有不少人都在研究数学。
贝叶斯一生中仅写过一篇数学论文,题为《关于概率思考中某一问题的解法的考察》的。贝叶斯逆概率的起点就在这篇论文当中。但贝叶斯本人似乎并不是很重视这一发现,他长期将其搁置一旁,因而我们也无法清楚地知道这篇论文的执笔年份。据推测,应该是在18世纪40年代末的1748年或1749年。
将贝叶斯的发现公之于众的,是他的朋友——同为牧师的理查德?普莱斯。普莱斯受贝叶斯的亲戚所托,调查贝叶斯遗留下来的文献,并发现了前述的那篇论文。普莱斯在整理思路后,于1764年在皇家学会的《哲学纪要》上发表了这篇论文。贝叶斯逆概率自此公之于世。
然而,几乎没有人关注普莱斯的报告内容。后来,由于法国的天才数学家拉普拉斯的研究,才使得情况有所好转。拉普拉斯原本已经在天文学、物理学、数学方面取得了大量优秀成绩。在了解到贝叶斯的研究之前,他就已经写过一篇关于贝叶斯逆概率构想的较为浅显的文章。之后,他听闻普莱斯的研究,并意识到它可能会促使自己的初期研究进一步完善。1781年左右,拉普拉斯一气呵成,将贝叶斯逆概率改编为现今公式的形式。因此也可以说,贝叶斯逆概率的发现也有拉普拉斯的功劳。