19-1 对“生女孩”的案例进行更准确的推理

在上一讲的基础之上,下面,我们开始解说使用了贝塔分布的贝叶斯推理过程。

这一次,我们依然使用第4讲中的例子——“若某对夫妇生的第一胎为女孩,那么第二胎依然为女孩的概率是多少”这个问题。第4讲中的推理,是在相当不充分的设定之下进行的。这是由于,在设定这对夫妇“生女孩的概率”的类别时,只考虑了0.4、0.5、0.6这3种情况,但并没有给出为何只设定这3种情况的相关证据。而实际上,大于0且小于1的所有数值都可以设为“生女孩的概率”。在学习第4讲时,我们只能做到为有限个数的类别设定先验概率;而现在,我们已经学会了处理连续型的概率分布,那么,也就可以在自然状态的设定下,进行贝叶斯推理。本讲中将会使用贝塔分布,来完成上述推理过程。

19-2 设定先验分布为均匀分布,并进行推理

把某对夫妇生女孩的概率设为x。x表示这对夫妇的“类别”。由于类别是未知的,所以将其作为推理的对象。

虽然我们知道,类别x一定是一个大于0且小于1的数值,但并不知道具体的数值。因此,需要设定每一类别分别对应何种程度的先验概率。当x分为3种情况时,设定各x的数值为事前“概率”是完全没问题的。但在本次推理中,x可以有连续无限个数值,因此设定的数值为“概率密度”(第16讲中对于“概率密度”这一概念已经进行了解说)。把各个类别的可能性的设定为概率密度时,称为“先验分布”。

在这里,暂且把表示x的先验分布的概率分布,假设为均匀分布。

这意味着,不管该夫妇所属的类别x为何种可能性,都假定其相等(大致相同)。也许有的读者会不理解这样进行假设的原因,认为“x在接近0或接近1的情况下,与接近0.5的情况下,结果是相等的”这样的设定不合逻辑。这是一个合理的疑问。在下一节中,将会以能够解答这个疑问的先验分布为例,来进行解说。而作为学习的出发点,首先我们来一起思考均匀分布的先验分布。

关于类别x(x为某对夫妇生女孩的概率)的先验分布,设定如下:

y=1 (0≤x≤1)

在图表19-1中,先验分布即为x轴上方的部分。

图表19-1 类别为均匀分布的情况

接下来,x轴的下方的长方形,可以对应第4讲的图表4-3的长方形分割图,也就是划分出互不相同的几种可能性。在图表4-3中,划分了6个长方形,但在图表19-1中,划分为无数条线段(AB或BC即为其中的1条)。

从有限变成无限的情形,如图表19-2所示。

图表19-2 从有限到无限

那么,接下来可以这样分析图表19-1:例如,图中的x=0.7(点A)表示该夫妇的类别为0.7,换言之,表示“这对夫妇生女孩的概率”为0.7这样一种可能性。因此,这对夫妇生的第一胎为女孩(这样一种可能性)的概率密度为0.7,用线段AB来表示。那么,生男孩的概率密度自然为0.3,用线段BC的长度来表示。实际上,这里采用了“&的事件的概率法则”(见15-3)。换言之,表示为:

(AB的长度)=(类别是x=0.7的概率密度)×(类别在x=0.7的基础上,生女孩的概率)

=(x=0.7时的y)×p(女孩|x=0.7)

=1×0.7

=0.7

在19-3之后,这个问题将成为基本的知识点。

假设我们获得了“这对夫妇生的第一胎为女孩”这样一条信息吧。那么,就可以把图表19-1中涂有颜色中的浅色部分的线段(生男孩的可能性)排除在外,只留下涂有颜色中的深色部分的线段(生女孩的可能性),如图表19-3所示。

图表19-3 排除生男孩的可能性

排除掉生男孩后的可能性之后,便不符合标准化条件(所有事件的概率之和为1)了。由于表示生女孩这种可能性(涂有颜色的深色部分的三角形)的面积为0.5,那么,为了把它的面积变为1,需要在保持各线段的比例关系的同时,变更概率密度。只要把每条线段延长到之前的2倍,就能满足标准化条件了(三角形的高度变为之前的2倍)。图表19-3的右侧部分,表示这一步骤完成之后的状态——把左侧的x轴下方的部分翻转过来,再纵向延伸到之前长度的2倍。需要注意的是,右侧部分的图像即为贝塔分布的α=2、β=1的情况(见17-4)。这个是在获得了“该夫妇生的第一胎是女孩”这条信息时,关于这对夫妇的类别x的后验分布。同时还需注意的是,它表示的不是后验概率,而是后验分布。这是因为,分布图表示的是概率密度。后验分布如图表19-4所示。

图表19-4 先验分布和后验分布

看图可知,虽然关于该夫妇生第一胎之前的类别x的先验分布,为均匀分布(无论哪种类别x,结果都是相同的)。但在获得了“第一胎为女孩”的信息之后,关于类别x的后验分布,就变更为z=2x这样的贝塔分布了。这意味着,类别x的后验概率密度,是随着x的增大而增大的。

19-3 第二胎依然为女孩时的推理

为了帮助大家了解采用贝塔分布的优势,下面我们针对该夫妇生的第二胎依然女孩的情况,进行贝叶斯推理。

由于关于类别的先验分布为均匀分布,那么,可以通过两胎连续生女孩的情况设定,来计算结果。而根据第12讲中解说的“贝叶斯推理的序贯理性”这一性质(见12-4),把上一节中求出的后验分布(z=2x)再次设定为先验分布,并在此基础上,根据“这对夫妇再次生了女孩”的信息,可以得出后验分布是相等的结论。那么,下面我们就用这个方法进行贝叶斯推理吧。

图表19-5 先验分布和后验分布

首先看图表19-5的左侧部分:x轴上方的部分表示先验分布,如设定一样,贝塔分布为y=2x。下方则表示,在获得“该夫妇生了女孩”的信息之后,各种可能性的划分。先说明结论:下图中涂有颜色部分的界限曲线为抛物线

z=2x2 …(1)

该抛物线上方涂有颜色的部分,表示该夫妇在类别x的情况下生女孩的概率密度。此外,该夫妇在类别x的情况下,生男孩的概率密度为直线OF和抛物线(1)围成的部分。

第15讲中已经进行了解说:该夫妇在类别x的情况下,生女孩的概率密度为(1)式,是依据“&的事件的概率法则”。由于该夫妇在类别x的情况下,生女孩的概率密度为x,那么在条件概率p(信息|类别)中,若类别=“x”、信息=“女孩”,那么这个概率模型可以设定为:

p=(女孩|x)=x

因此,

p((该夫妇为类别x)&(类别x的夫妇生了女孩))

=p(类别x)×p(女孩|x)

=2x×x

=2x2

下面,通过图表19-5的右侧部分,来对于“为何概率密度和概率,都能够用乘法运算求出&的概率密度呢?”的问题进行说明(如果觉得这样的解说很烦琐,可以直接跳过以下内容)。以类别x=0.7为例:该夫妇的类别0.7这一可能性,近似于x轴上方的小长方形。若把宽度设为d,那么关于以0.7为中心的宽度d的范围的类别x,可以将其概率密度全部视为1.4。那么,该夫妇属于这个长方形(属于这种可能性)的概率为:d×1.4。这里,运用了将概率密度乘以宽度转换为概率的方法。由于属于该情况的夫妇,生女孩的概率为0.7,那么(该夫妇属于类别0.7)&(类别0.7的夫妇生女孩)这种可能性,便可以认为近似于x轴下方以线段AD为长的长方形。

在这个长方形中,点D处于划分0.7和0.3的比率的位置,因此,这个面积为(d×1.4)×0.7。由此可以计算出AD的长度(除去宽度d)1.4×0.7=0.98。

之后,根据获得的“第二胎依然为女孩”的信息,可以排除掉图表19-5左侧部分的OF和抛物线(1)围成的部分,只留下抛物线(1)和x轴围成的部分(涂有颜色的部分)。由于这个面积不等于1,因此需要像之前一样,使用标准化条件,使其面积变为1。

这里需要注意的是,二次函数y=(常数)x2为α=3、β=1时的贝塔分布。因此,满足标准化条件的后验分布为:(对于推理来说,“系数为3”并不重要,故此处省略原因)。

y=3x2 (0≤x≤1)

那么,根据上一讲中的公式,可以求出α=3、β=1的贝塔分布的期待值为:

图表19-6 第二胎依然为女孩时的后验分布

19-4 设定先验分布非均匀分布,并进行推理

如19-2中解说的那样,多数人认为,把“某对夫妇生女儿的概率”的先验分布设定为均匀分布,并不十分恰当。这是由于,一般来说很难认为当类别接近0或1时,与接近0.5时的情况是相同的;而最初的设定——接近0.5的类别容易发生,远离0.5的类别难以发生这样的思路则更为普遍。最后,以这种情况为例来进行解说。

此时,可以将先验分布设定为α=2、β=2的贝塔分布。正如第17讲中的解说,该分布为:(图表19-7)

y=6x(1-x)(0≤x≤1)

图表19-7 非均匀贝塔分布的先验分布

在上述先验分布的情况下,离类别0.5越远,其概率密度越小。此时,“类别x的夫妇生女孩”的概率为:

p((类别x)&(女孩))

=p(类别x)×p(女孩|x)

=6x(1-x)×x

=6x2(1-x)

因此,实行标准化条件之后,从作为后验分布的贝塔分布中可以求出:(此处省略说明系数为12的理由)

z=12x2(1-x)

据此,这对夫妇第二胎依然为女孩的概率,可以从贝塔分布的期待值的公式(第18讲)

中推理得出,结果为0.6。因此可以得出,相比于把均匀分布作为先验分布时(推算值约为0.67),推算出生女孩的概率的数值要更接近0.5一些的结论。这个推理应该可以说服大多数人吧。

19-5 在先验分布中运用贝塔分布的原因

读到这里,大家大概应该已经明白,为何把“某对夫妇生女孩的概率”的贝叶斯推理中的先验分布设定为贝塔分布的原因了吧。这是因为,后验分布也恰好为贝塔分布。

生女孩的概率是把类别x的概率密度乘以x,生男孩的概率是用类别x的概率密度乘以(1-x)计算出来的。之后,把类别x的先验分布设定为贝塔分布,就知道后验分布也同样为贝塔分布了。

像这样,对于设定的概率模型,把后验分布设为与先验分布相同的分布,这样的先验分布称为“共轭先验分布”。也就是说,生的是女孩或是男孩,这一概率模型的共轭先验分布,即为贝塔分布。

在贝叶斯推理中存在一个惯例:把想需要推理的概率模型的共轭先验分布作为先验分布来运用。原因有二:

原因1:若把先验分布和后验分布设为相同,那么计算就会变得简单很多。

原因2:若先验分布和后验分布不同,那么从哲学角度来思考的话,会觉得很奇怪。

可以说,以上两种观点的出发点是截然不同的。前者从功能角度出发,而后者是从哲学角度出发的。不过,任何一种(或是两者)都能够帮助我们认同运用共轭先验分布的思维方式吧。

第19讲·小结

1.对于“当某对夫妇生的第一胎为女孩时,第二胎依然为女孩的概率x”进行推算时,把类别设定为0≤x≤1。

2.若把类别x的先验分布设定为均匀分布,那么后验分布为贝塔分布。

3.各种可能性的划分,用p(类别x)×x和p(类别x)×(1-x)进行计算。

4.对于“类别”本身(而不是类别x的概率分布)进行推理时,使用贝塔分布的期待值。

5.共轭先验分布,是为了把先验分布和后验分布统一为同样分布的先验分布。

6.“生的是女孩还是男孩”这一推理的共轭先验分布为贝塔分布。

练习题

答案参见此处

进行一项实验,验证某种药对于某种病症是否有疗效(临床实验)。现在,把药分给10个患者,实验结果为:对于其中4人有效果,6人没有效果。那么此时,根据贝塔分布,用贝叶斯推理对这种药的效果概率进行评价。在下面的()中填入合适的答案。

把先验分布设为均匀分布,即设为:

y=()

此时,在“有效果”的概率密度x的基础上,按照特定的顺序,根据4人有效果、6人没有效果这样的结果概率,可以从4个x和6个(1-x)的乘法运算中得出:

y=x()(1-x)()

因此,根据标准化条件,后验概率的概率分布是可以用合适的常数表示为:

y=(常数)x()(1-x)()

即为α=()、β=()的贝塔分布。计算该贝塔分布的平均值,为: