2-1 计算罹患癌症的概率
本讲是通过一些容易获取客观数据的案例,对于贝叶斯推理进行说明。需要了解的重点是,理解“如果从客观的数据来考虑的话,反而会容易陷入误解之中”的问题。在这里,你会发现概率的不可思议。
下面,用医疗诊查来举例进行说明。
在医疗发达的当今社会,我们能够获得多数病症的统计数据。另外,在发觉自己出现了一定症状之前,就能够发现病情的技术也在不断发展进步。但是,依然存在一个问题:如何判断通过检查得出的“是/不是X病情”这一结果的准确性呢?
假设,你接受了一项“如果患了特定的癌症的话,结果有95%的概率为阳性的检查”,并且在之后收到了结果为阳性的报告。此时,你会判断自己患该癌症的概率为95%吗?
答案是“不会”。
如果“自己患癌症的概率真的为95%”的话,你肯定会对这个结果感到非常悲观。实际上,对此做出错误判断的人大概有很多吧。但是,从“阳性”这个结果来推断“你患了癌症的概率”,这也并不是一个特别高的数字。
在该推算中,由于是从“阳性”这一“结果”追溯到“患癌症”这一“原因”,因此可看作贝叶斯推理的典型案例。
在本讲中,我们首先进行问题的设定。以下数据是为了简化计算而假设的虚构数值,并非真实的数据。
问题设定
假设,某种特定的癌症的患病率为0.1%(0.001)。有一个简易的方法能够检查出是否患上这种癌症:患上这种癌症的人中有95%(0.95)的概率被诊断为阳性。但另一方面,健康人群也有2%(0.02)的可能性被误诊为阳性。那么,如果在这个检查中被诊断为阳性的时候,实际患上这种癌症的概率为多少呢?
2-2 根据医疗数据,设定“先验概率”
该推算的顺序,与第一讲中进行的推算顺序完全相同。因为具体事例有所区别,带给各位读者的印象可能会不太一样,因此,下文将沿袭第一讲的方式,对推算的顺序进行详细说明。
这个例子的特殊性在于,先验概率是一项客观存在的流行病学数据。第一讲中已经解释过,先验概率,是“在获得信息之前,各个类别的存在概率”。在这个案例中共有两种类别:一种是“罹患癌症的人”,另一种是“健康的人”。
正如问题设定中所述,这种癌症的罹患率为0.001,因此流行病学认为,1000人中有1人会罹患这种癌症。因此,如果要在检查前推测自己是否罹患这种癌症的话,如下面的图表2-1所示。
图表2-1 根据癌症罹患率得出的先验分布
下面,重新解释一遍该图。
该图表示的是:在接受简易检查诊断之前,判断你是否罹患了癌症的可能性。你所在的世界分为左侧表示“罹患癌症”和右侧表示“身体健康”的两个“可能世界”,而你一定处在这两个可能世界中的一个当中。所以并不知道到底属于哪一个世界,仅仅是作为推测而已。也就是说,世界分为了两个互不相同的部分(可能性分为了两种)。
但是,并非完全没有办法来推测你究竟处在哪个“可能世界”。通过流行病学数据我们知道,这种癌症的罹患率为0.001。也就是说,统计显示,1000人中有1人罹患这种癌症,所以,这可以作为判断你是否罹患该种癌症的参考。如果直接套用的话,可以推算罹患该种癌症的概率为0.001。也就是说,“你究竟属于两个可能世界中的哪一个”的问题,在没有任何个人信息的情况下,属于左侧世界的概率可被推算为0.001,属于右侧世界的概率可被推算为0.999。
2-3 以检查准确率为线索,设定“条件概率”
下一步就是设置为不同类别带来特定信息的条件概率。本例中的信息是指检查结果所呈现出的阳性及阴性。正如第一讲中所述,这一过程离不开客观数据的支撑。在本例中,就使用了与简易检查相关的客观数据。(图表2-2)
图表2-2 检查准确率的条件概率
横向阅读这张图表可知:上面一行是癌症患者的情况,检查结果呈阳性的概率为0.95。也就是说,查出患者得了癌症的概率为95%。那么误诊的概率便是1-0.95=0.05了。这表明,每接受检查100人中,其中5人,即使身患癌症,诊断出来的结果也是阴性。
下面一行是健康者的情况,误诊为阳性的概率为2%。因此,准确诊断为阴性的概率就是1-0.02=0.98。
从上面的图表,我们可以得知,简易检查并不是那么完善,它存在着误诊的风险。所谓的风险包含了:“身患癌症,却诊断为健康”和“很健康,却误诊为癌症”这两种情况。
这种概率,就是先前讲过的,在限定类别场合下的各个检查结果的条件概率。把各个类别作为检查结果的“原因”来看待的话,如果明确了原因(身患癌症或是健康),就可以知道结果(阳性或阴性)的概率。
上一节中共分了两个大类,根据具体信息,每个大类又被分成了两小类,如图表2-3所示。
图表2-3 四种互不相同的可能性
如图表2-3所示,你的身体内部存在四种可能性。患癌并呈现阳性(左上区域),患癌并呈现阴性(左下区域),健康状态下的阳性(右上区域)和健康状态下的阴性(右下区域)四种情况。
并且,根据各区域所表示的概率,用乘法计算,得到图表2-4。
图表2-4 四种互不相同的可能性各自的概率
2-4 检查结果呈阳性,因而排除掉“不可能的情况”
此刻,你已经了解到自己的检查结果呈阳性。而这件事又可以这么理解:你获取一项关于自己身体内部状况的信息,也就为“可能性世界”增添了新的信息。
在现实世界中,因为观察到了“阳性”这一结果,“阴性”这一结果便可以排除了。用图形表示,如图表2-5所示。
图表2-5 获得信息之后,可能性受到限定
2-5 计算罹患癌症的“贝叶斯逆概率”
在上一节中,因为观察到“阳性”这一诊断结果,因此,可能世界被限定为2个。也就是说,你所处的世界或是“癌症&阳性”的世界,或是“健康&阳性”的世界,只有这两种可能性。
对检查结果的观察,使得可能性从4种减少到2种。这样,概率相加之和(长方形的面积)无法为1。因此,为了恢复标准化条件,需要在保持比例关系的前提下,使“相加之和等于1”,具体如图表2-6所示。
(左边长方形的面积):(右边长方形的面积)=0.095:1.998
0.095+1.998=2.093,用这个数值来分割比率的两侧的话,可以满足标准化条件(相加之和等于1)。
图表2-6 根据标准化条件,计算后验概率
如图所示,将长方形的面积标准化处理,则为0.0454和0.9546(四舍五入,保留小数点后第四位)。请确认相加之和为1。
从这个结果可以得知,在得知“阳性”这一检查结果的情况下,罹患这种癌症的概率为4.5%左右,这便是后验概率(贝叶斯后验概率)。
2-6 贝叶斯推理过程的总结
本讲中,求癌症检查的贝叶斯逆概率的方法,可用图表2-7表示如下:
图表2-7 罹患癌症概率的贝叶斯推理过程
那么,在求罹患癌症的后验概率的过程中,我们能够发现什么呢?这个问题,也是本讲最重要的内容所在。
首先,请注意本讲开头提出的问题——“如果在准确度为95%的癌症检查中,你的检查结果呈阳性,那么,你患癌症的概率是否为95%?”答案是否定的。别说95%了,实际上只有4.5%。不过在这个意义上讲,倒不必过度悲观。
至于为何概率会如此之低,原因在于,患癌症的可能性本来就极其微小,健康人群中所占的比例远高于患癌症的人,健康人被误诊为阳性的可能性也很大,这一部分数值不能忽视。因此,即便检查结果呈阳性,也有很极大的可能性是健康人被误诊。所以,千万不要过度悲观。
不过,即便如此,也不能完全放心。关于这一点,看一看表示先验概率和后验概率的图表2-8就清楚了。
图表2-8 关于癌症检查的贝叶斯更新
通过上图我们可以看出,罹患该种癌症的概率,在尚未进行观察的情况下为0.001(先验概率);而得知检查结果呈阳性之后,数值便发生了更新,变为约0.045(后验概率)。也就是说,概率从0.1%一下子上升到4.5%,增大了45倍。
在得知检查结果之前,该种癌症的自然发生率很低,1000人中只有1个人有可能患病;而得知检查结果呈阳性之后,概率骤然提高,20个人中就有1个人有可能患病。这绝对是不容小觑的事情。
在类似以上的推算过程中,如果想要深刻理解后验概率的话,需要每天进行练习。在阅读本书的过程中,请读者朋友们多加练习。
第2讲·小结
1.(借助流行病学数据)设定“癌症”、“健康”的先验概率。
2.设定癌症检查的敏感度。也就是设定癌症患者检查结果为阳性或阴性的条件概率,以及健康人检查结果为阳性或阴性的条件概率(使用治疗数据)。
3.由于检查结果呈“阳性”,因此暂不考虑“阴性”情况。
4.对“癌症&阳性”的概率与“健康&阳性”的概率数值,恢复标准化条件(保持之前的比例关系,使相加结果为1)
5.标准化条件下的“癌症&阳性”的数值,即为检查结果为阳性的患者实际患癌的时候概率(贝叶斯逆概率)。
6.在观察检查结果后,先验概率更新为后验概率(贝叶斯更新)。
练习题
答案参见此处
假设现在是流感流行期,由于高烧而前来医院就诊的患者中,有70%患的是流感,30%患的是普通感冒。通过流感检测工具检查出来的阳性-阴性概率总结于以下表格中。
此时,通过以下步骤来推测,在流感检测工具上显示阳性时患流感的概率,以及显示阴性时未患流感的概率。
各个类别的先验概率分别为,
(a)=()、(b)=()
添加信息后的条件概率分别为,
(c)=()、(d)=()
(e)=()、(f)=()
四种互不相同的情况的概率分别为,
(g)=()×()=()
(h)=()×()=()
(i)=()×()=()
(j)=()×()=()
将观察结果为“阳性”的两种可能性的概率进行标准化处理,则
观察结果为“阳性”的情况下,患“流感”的后验概率=()
将观察结果为“阴性”的两种可能性的概率进行标准化处理,则
观察结果为“阴性”的情况下,患“流感”的后验概率=()