Page 38 - 信息的脉络
P. 38
·信息的脉络·
第三节 概率与贝叶斯
贝叶斯学习者可以从一组观察过的例子中提取更大量的关于某个概念外延的
信息,然后以理性的方式利用这些信息推断出某个新对象作为这个概念的实例的
概率是多少。
——乔西·特南鲍姆
“概率”一词在我们的生活中随处可见,被人们使用得越来越广泛和频繁。
因为这是一个越来越多变的世界:一切都在变化,一切都难以确定。我们的世界
可以说是由变量构成的,其中包括很多决定性变量。例如新闻说:“北京时间
2016 年 11 月 3 日 20 时 43 分,长征五号在海南文昌成功发射”,这里的时间、地
点都是确定的决定性变量。然而,我们的生活中也有许多难以确定的随机变量,
如明天雾霾的程度、某公司的股票值等,都是不确定的随机变量。随机变量不是
用固定的数值表达,而是用某个数值出现的概率来描述。正因为处处都有随机变
量,所以处处都听见“概率”一词。你打开电视听天气预报,看看今天会不会下
雨,气象预报员告诉你说:今天早上 8 点钟的“降水概率”是 90%;你到手机上
查询股市中的某种股票,你得到的信息可能是这种股票 3 个月之后翻倍的概率是
67%;你满怀期望地买了 50 张彩票,朋友却告诉你,傻瓜才会白花这 50 块钱,
因为你中奖的概率只有一亿分之一。在经典意义上,概率就可以被粗糙地定义为
事件发生的频率,即发生次数与总次数的比值,精确一点说是,事件多次重复后
发生的频率的极限。通常持有这种观点的人也被称为“频率学派”。
经典概率的观点有很多的分歧。很多时候,概率并不能通过多次实验得到,
如上海下雨的概率,就是无法通过进行实验的,而且其描述的内容并不像是对随
机事件重复的频率,更像是对某种不确定性的度量。正因为这种分歧,另一种概
率统计的派别逐渐兴起,即站在频率学派对立面的贝叶斯学派。两派之间的争论
一直贯穿于概率及统计的发展历史中。
概率通常用以量化已知的未知,而未知的未知只能用可能性来处理。可能性
是用非确定性来建模的,但如果想要有一个可计算的不确定性理论,我们就需要
概率。例如,概率论使我们在收集数据的时候,能够对某些事情更加确定,同时
保留了从更多数据中学习的空间,并留下了剩余的不确定性。这一方法要归功于
18 世纪英国数理统计学家和神学家托马斯·贝叶斯。
托马斯·贝叶斯(Thomas Bayes,1701—1761 年)是英国数理统计学家,曾
经是个牧师。贝叶斯定理是他对概率论和统计学做出的最大贡献,是当今人工智
能中常用的机器学习的基础框架,它的思想之深刻远超一般人所能认知,也许贝
• 22 •