3-1 推测送巧克力的女同事的心意

本讲之前所阐述的贝叶斯推理的顺序为:

(先验概率)→(条件概率)→(通过观察获取信息)→(后验概率)

第1讲和第2讲中,在设定最初的先验概率时,是以客观数据作为参考的。然而,贝叶斯推理的魅力正在于:即使没有事前的客观数据,也能进行推算。也就是说,可以主观设定先验概率,进行推算。这可以更进一步解释为:学会这个方法,才能更深刻地理解“贝叶斯推理的思想”,全面了解它的神奇和不可思议,以及奇怪和可疑之处。

下面,进行如下问题设定:

问题设定

假设你是一名男性,有这样一位特殊的女同事,你很在意她是否对自己有好感。情人节那天,你收到了她送的巧克力。那么,你将如何推算“她喜欢自己”这一事件的概率呢?

读完以上问题设定,你一定会感到云里雾里,毫无头绪,甚至怀疑这样的问题究竟是否能通过数学方法来解答。

其中的关键在于,需要将“这位女同事在多大的程度上把自己当做真命天子”这一涉及人的内心的问题进行数值化,而这无论如何也不具有任何的客观性。第1讲中“顾客是不是来买东西的”,以及第2讲的“你是否患了癌症”的问题,多少在一定程度上可以使用统计学性质的判断方法。而这一案例要讨论的,是某位特定女同事的内心世界,而并不是“大多数普通女性是否把你当作她们的真命天子”这种统计学性质的问题(这样的问题本身就很搞笑)。

此处的设问——“认为你是真命天子的概率”中的“概率”这一概念,让人越想越不明白。举个其他的例子,“掷骰子丢出1的概率为1/6”,这句话可以解释为:丢6次骰子,其中有一次的结果为1。如果更谨慎一点,还可以这样解释:丢N次骰子,其中有1/6的几率结果为1。然而,对于“她认为你是她的真命天子”这样的问题,上述解释必然是行不通的,因为这样会演变成:假设有很多位女同事,那么她们中有多少比例的人,认为你是她们的真命天子呢?这实在太滑稽了。

因此,本次的问题设定与通常情况下的统计、概率常识是有所不同的。不过,贝叶斯推理可以帮助我们解决这样的问题。这也正是贝叶斯推理的优势所在。本讲通过解释这一类问题,帮助您理解贝叶斯推理带有主观性的一个侧面。

下面,笔者将通过娱乐杂志委托笔者撰写的关于贝叶斯推理的文章来进行解说。

3-2 主观上设定你是否是“真命天子”的“先验概率”

按上节所述,这一事例的特殊性在于,通过客观统计数据无法获得先验概率。先验概率的概念在第一讲中曾涉及,是指:事前能够判断的各个类别的相应概率。在这个案例中,有两种类别:一种是“把你视为最喜欢的人”,另一种是“没有把你列入考虑范围之内”。以下,简称为“真命天子”和“无关路人”。

此例中,并没有选取大量的统计学现象来处理,而是对某个特定的女同事的心情进行推测。因此,没有数据可用于先验概率的判断。

在这种情况下,一般会采用“理由不充分原理”的方法。通过这一原理我们可以进行如下思考:因为没有证据证明女同事把你视为“真命天子”,然而也没有证据认为她把你视为“无关路人”,因此暂且把这两种情况的概率视为相等。即把两种情况的先验概率分别设为0.5和0.5,如图表3-1所示。

图表3-1 理由不充分原理的先验分布

这张图显示的是,观察女同事收到情人节巧克力之后所采取的行为之前,你对于她来说是“真命天子”或是“无关路人”的可能性。把你存在的世界分为两部分,左边是“真命天子”的可能世界,右边是“无关路人”的可能世界。

那么,你究竟属于这两个世界中的哪一个呢?总之,答案在她的心中,你无法断定,只能推测罢了。既然统计方法无法使用,也没有证据证明哪一种更有优势,因此,两种情况的可能性理应对等划分,各为0.5。当然,也可以划分为其他比例,这个问题将在本讲的最后进行说明。

3-3 设法找到数据,设定“条件概率”

下一步是针对能够观察到的行动,设定不同类别的条件概率,而这需要在一定程度上的客观概率。也就是说,必须要获得统计性的数据,才能进行下一步工作。

笔者在娱乐杂志上发表“判断真命天子”的文章前,曾拜托编辑对职场女性在情人节当天的行为做了问卷调查。希望通过调查得知:职场女性对真正喜欢的男性和不列为考虑对象的男性送出巧克力的概率各自为多少。编辑人员在网上发布简单的调查问卷,调查对象为职场女性,调查问题为选择题,给出了三个选项:0%、50%、100%。

对于统计结果进行分析的结果显示:职场女性对“真命天子”送出巧克力的平均概率为42.5%,对“无关路人”送出巧克力的平均概率为22%。对于“真命天子”,只有不到50%的概率送出巧克力。这令人有些意外;而对于“无关路人”,有22%的概率送出巧克力,这也令人感受到“义理巧克力”的神奇所在。不过,给“真命天子”送巧克力的概率,总归是给“无关路人”送巧克力概率的2倍,嗯,确实如此啊。

图表3-2 显示的是条件概率。为了计算方便,抹去了零头。

表中的概率与第一讲、第二讲中所提到的概率相同,都是指“某一特定类别下,各种行为的概率”。总之,可以推算出“了解原因(真命天子或无关路人)情况下的结果(送出或不送)的概率”。

上一节提到的两个互不相同的世界,可以再各自细分为两个世界,最终形成四个可能世界,如图所示。图表3-3中各区域所表示的概率,也就是该区域的面积,可以通过乘法求得。

图表3-3 四种互不相同的可能性的概率

3-4 收到巧克力,排除掉“不可能的情况”

如今,你幸运地收到了来自心仪女同事的巧克力。这件事为你提供了关于对方心意的补充信息。

在现实世界中,因为已经发生了她给你“送巧克力”的行为,“不送”的可能性就被排除在外,如图表3-4所示。

图表3-4 信息限定了可能性

根据观察女同事行为的结果来看,可能性从4种减少到2种,在维持比例关系的前提下,以“相加之和为1”为目标来改变数值,恢复标准化条件。

(左边长方形的面积):(右边长方形的面积)=0.2:0.1=2:1

因此,把两边的比例分割成2+1=3,由此得出,

(左边长方形的面积):(右边长方形的面积)=2:1=2/3:1/3

图表3-5 根据标准化条件,计算后验概率

从结果来看,如果你收到了女同事的巧克力,那么,你成为她的“真命天子”的事后准确率便为2/3,约等于66%。

3-5 贝叶斯推理的过程总结

用图表来总结本讲中的贝叶斯推理的话,如图表3-6所示。

图表3-6“真命天子”“无关路人”的贝叶斯推理过程

求得真命天子的后验概率,能够了解到什么呢?通过先验概率和后验概率的图表3-7,我们可以找到答案。

图表3-7 关于女同事心情的贝叶斯更新

通过以上图表,我们可以了解到:收到巧克力前,两种可能性被认为各占一半,“你是她的真命天子的概率”一开始为0.5,在收到巧克力后,上升到了约66%。因为收到了巧克力,你的期待感与之前相比也有所提高,这是理所当然的。贝叶斯推理的便利之处在于,能够将其通过数值表现出来。不过虽然如此,但概率也只有66%而已,所以,还是不要抱有太高的期待。

读到这里,或许会有读者感觉,“就算是因为理由不充分,将先验概率设定为可能性各占一半,这未免太过自信了吧”。这种情况下,稍稍控制一下,谦虚一点,将真命天子的概率设为0.4,无关路人的概率设为0.6也好。像这样,能够自由设定先验概率,也体现了贝叶斯推理的灵活之处。(将先验概率设定为真命天子0.4、无关路人0.6时的推算,请大家在后面的习题部分进行推算练习)

3-6 计算“信念的程度”也可以使用贝叶斯推理

在本讲的最后,对于“概率”的定义进行简要说明。

我们在初中、高中阶段学习的概率,是一个客观的概念。也就是说,对于“某现象的概率是多少”的问题来说,答案是唯一的,无论是谁回答,都会给出一个唯一、客观的数值。在“掷骰子出现1的概率为六分之一”的情况下,概率表示的是:丢出这个骰子后,出现的结果为1的可能性的程度。这个答案对于所有人来说,都是相同的。

然而,本讲中提到的“概率”,并非上述的客观性概率。“女同事认为你是她真命天子的概率”这一情况下的“概率”,并不能像上述掷骰子事件的概率那样进行解释。这是因为:骰子可以丢很多次,但这位女同事是独一无二的。她认为你是真命天子还是无关路人,并不是从现在才开始发生的概率性事件,而是早已有了结论,只是你不知道罢了。

因此,“女性同事认为你是她的真命天子的概率”中的“概率”,应当解释为:你内心描绘的类似“信念程度”这样的概念。也就是说,并非“概率是多少”的问题,而应该理解为“你认为概率是多少”。

像这样,可以解释为“人的内心描绘的数值”的概率称为“主观概率”。主观概率在学校教育中并不涉及,因此,很多人会认为主观概率是不可信的。但在统计学和经济学中,“主观概率”始终占有一席之地。(参考第18讲后的专栏)

第3讲·小结

1.设定各个类别的先验概率(由于无法获得得到数据,采用理由不充分原理,将先验概率设定为各种情况下的可能性各占一半)。

2.设定关于行为的条件概率(运用调查数据)。

3.根据获得的行为信息,排除不可能存在的可能性。

4.使余下几种情况的概率数值,在保持比例关系的前提下,满足“相加之和为1”,恢复标准化条件。

5.获得各个类别的后验概率(贝叶斯逆概率)。

6.根据对行为的观察,将先验概率更新为后验概率(贝叶斯更新)。

7.涉及的概率为“主观概率”。

练习题

答案参见此处

在这里,我们采用与正文中设定相同的案例,并假设推算者稍微有点“软弱”,在这个前提下进行新的推算。在正文中,将“真命天子”和“无关路人”的先验概率分别设定为各0.5;而在这里,将其调整为成“真命天子”的先验概率为0.4,“无关路人”的先验概率为0.6;后面的条件都相同,关于信息的条件概率如下表所示:

这时,请按照以下步骤,试着计算在收到巧克力这一情况下的“真命天子”概率。

各个类别的先验概率分别为,

(a)=()、(b)=()

添加信息后的条件概率分别为,

(c)=()、(d)=()

(e)=()、(f)=()

四种互不相同的情况的概率分别为,

(g)=()×()=()

(h)=()×()=()

(i)=()×()=()

(j)=()×()=()

如果观察到“送出”这一行为的两种可能性的概率相加之和为1的话,那么

“送出巧克力”情况下的“真命天子”的后验概率=()