贝叶斯推断在机器学习领域的原理和实际应用介绍外文翻译资料

 2022-09-14 20:01:12

英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料


贝叶斯推断在机器学习领域的原理和实际应用介绍

Michael E. Tipping

微软研究院,剑桥,英国

发表名称:“贝叶斯推断在机器学习领域的原理和实际应用介绍”

出版年份:2004

排版版本:2006.6.26

发表渠道:http://www.miketipping.com/papers.htm

联系方式:mail@miketipping.com

摘要:在机器学习背景下,对贝叶斯推理的原理进行基本介绍,并强调用于处理不确定性的边缘化的重要性。在正文部分,首先建立简单回归模型并论述本文观点,然后通过描述稀疏贝叶斯模型和“关联向量机”将这些观点和现实技术相联系。

前言

在机器学习背景下“贝叶斯推理”是什么呢?为了回答这个问题,我们首先需要提出一个任务,即我们希望从数据的某一特定部分学习关于多对变量AB的关系的模型。的确,许多机器学习问题属于“已知A,求B”这种类型。

我们将一些经常用数学方法解决的问题转化为用言语来表达,这个方法就问题本身而言是很有趣的。我们应该怎么回答“B是什么呢?”在命题逻辑明确且公理的框架下,我们可以完全确定地“回答”这个问题。在现实生活中,不确定性多于“事实”是无处不在的,因此上述命题逻辑就显得太严格了。我们对于相关变量B和独立变量A的测量是无可避免有噪声且不精确的,而且上述两者之间的关系总是不确定的。所以我们需要引入概率论的方法,它给我们提供了用于推理不确定性的条理化且一致的框架。

我们可能会想起概率论,尤其是为我们提供了“不确定性逻辑”的贝叶斯法则[1]。在我们的例子中,在给定A的情况下,我们会通过条件概率P(B|A)“推理”B是真的可能性(假设B是二元的):即“在A的概率已知的条件下,求B为真的概率?”一个恰当的回答可能是“B是真的概率是0.6”。“机器学习”的主要任务之一是使用一些根据AB相关数据所建立的模型来近似P(B|A)。

在建模过程中出现了贝叶斯推理。我们通常(尽管不是唯一地)会为了条件概率而定义参数化模型的一些形式:

(1)

w表示由模型中所有“可调节的”参数构成的一个矢量。假定由N个关于变量的数据组成的集合为D,,对于集合D,传统方法需要在模型内关于可调参数进行最大化“正确度”(或者最小化“错误率”)。 随后我们做出预测,在给定A的情况下,将参数w调到它们对应的最优值并评价f (A;w)即可求出B的概率。当然,如果我们建立的模型f过于复杂,可能会导致出现过多的可调参数w,从而对观测数据D过度专化的风险,最终只会得到关于真实基本分布P(B|A)不理想的模型。

贝叶斯推理范式的第首要关键因素是将参数如w看作随机变量,对AB也是一样的。所以条件概率变成了P(B|A,w),参数设置对于AB的概率都会产生影响。不是“学习”质量度量的最优化,而是从贝叶斯法则中推断出参数w的分布。我们会在第2章通过一个简单回归模型来证明这个观点。

为了获得上述w的“后验”分布,我们需要在观察数据之前规定“先验”概率

p(w)。尽管这是一个繁琐的事情,不过贝叶斯推理以统一和一致的方式对待建模过程中所有的不确定输入,并对假设条件和约束条件进行明确,这些都是范式本身具有的极好的特征。

可是,贝叶斯方法最吸引人的方面是通过“集成”所有无关变量从而实现了 “奥卡姆剃刀原理”。也就是说,在贝叶斯框架下会对简单模型(在没有多余复杂性的条件下充分描述数据)进行自动选择。我们会在第3章证明这个特点,并强调:在p(w)完全不提供信息的情况下该性质也一样成立。实际上,我们说明了:“奥卡姆剃刀原理”使我们不需要任何额外验证步骤就能“建立”正则化参数和 “选择”模型。

贝叶斯方法的缺点是该方法要求我们集成变量,并且这些计算通常复杂度较大。因此,在机器学习领域,当代对于贝叶斯方法的研究主要集中在近似算法。我们在第4章描述“稀疏贝叶斯”,还将体现分析计算和直接计算的结合的有效性并提供最先进的结果。

2.从最小二乘法到贝叶斯推理

我们通过考虑一个预测(回归)问题引进贝叶斯推理方法论。首先假设我们获得的数据集非常简单(如图1所示)并由N=15个数据组成。这些数据人为地由函数y=sin(x)和方差为0.2的高斯噪声形成。我们将输入变量表示为xn, n=1hellip;N。对于每一个xn,会有一个相应的实值“目标” tnn=1hellip;N,从这些输入目标对,我们希望“学习”潜在的函数映射。

2.1 线性模型

我们会通过参数化函数y(x;w)(是由可调节模型参数组成的向量)来模拟这些数据。在这里,我们考虑线性模型(严格来说,“参数线性”)。在该模型中,M个固定(不过可能是非线性的)基函数线性加权和表示为:

(2)

考虑到我们的目的,我们一般使用高斯基函数,该函数给予我们一个“径向基函数”类型模型。

2.1.1 最小二乘逼近

我们的目标是为w寻找合适的值使y(x;w)能对新数据进行良好预测:即模拟潜在生成函数。一个经典的估计y(x;w)的方法是“最小二乘”,该方法最小化误差:

(3)

如果且是“设计矩阵”满足,那么通过线性代数可获得闭合形式下(3)的极小化变量:

(4)

可是,由于只有M=15个基函数和N=15个例子,我们可以从图1看出,最小化平方误差将导致模型出现数据样本的过度拟合。

图1 左侧表示理想拟合的情况,右侧表示使用15个基函数进行最小二乘拟合并 插值所有数据点的情况

现在,我们可以清晰地从图1看出右侧函数出现了过度拟合的情况。可是,如果没有关于“真”的先验知识,我们可以判断出哪个模型是更好的呢?答案是我们不可以,对于实际问题,数据很有可能通过图1右侧的复杂函数来产生。我们继续学习这些数据的唯一方法就是对我们希望去阐明的函数的复杂性加上一些预判。一个常用的方法是 “正则化”。

2.2 复杂性控制:正则化

一个常用并合理的假设是:我们希望数据从平滑函数而非复杂函数中产生。在一个线性模型框架中,函数越平滑权重大小越小,所以我们可以通过给予我们需要最小化的代价函数适合的惩罚来处罚复杂函数:

(5)

一个标准做法是平方加权惩罚,,该方程很方便地对w进行“补偿最小二乘”估计:

(6)

超参数很好地平衡了函数对数据的拟合程度和函数的平滑程度。考虑到我们可以从给定的直接计算各权重,现在问题转化为如何找到超参数合适的值。通常采用的方法是:根据一组“校验”数据(即不是用于估计的数据)计算错误,图2表示取其他值时的拟合程度和它们对应的验证错误。

图2 函数估计(实线)和正则化超参数三个值对应的验证错误(真函数用虚线表示)。训练数据用黑色点表示,验证数据用绿色点表示。

实际上,正如图3所示我们可能需要评价超参数取不同值时对应的多个模型并选择验证错误最低的。我们希望该模型是最接近实际情况的。在这种已知生成函数的人工情况下,与实际情况的偏离程度可以根据画图和对测试误差(无噪声样本sin(x)的误差)测量得出。我们可以看出最小化验证错误不能总是十分接近最佳测试误差,不过可以论证两者之间是足够小的。在第3章讨论边缘化和如何利用贝叶斯推理估计的时候我们会再次涉及图2。现在,我们讨论正则化方法如何在贝叶斯概率框架下重新表述。

图3 通过单独15个训练集,验证集和无噪集计算的误差。最小测试和验证错误用三角形表示且对应的可知。

2.3 概率回归框架

我们根据之前的假设:数据是潜在功能模型的嘈杂实现:。应用最小二乘需要最小化,不过在这里我们首先定义一个明确的概率模型,该模型排除噪声分量(服从高斯分布,均值为0且方差为)。也就是说,。又因为,有。假设从数据集中获取的每一个数据样本是独立形成的(尽管这个假设并不总是正确的,但这是合理的),所有数据的概率可由下式导出:

(7)

(8)

注意到,我们不会使用给定输入数据x的模型,所以从现在开始我们会将表达式如表示成。该做法仅仅是为了符号上的方便(不会导致更多的模型假设)和符合习惯用法。

2.4 极大似然估计和最小二乘法

对进行极大似然估计就是最大化。实际上,这跟最小二乘本质上是一样的,因为最小化平方误差相当于最小化概率的负对数:

(9)

由于(9)式等号右侧第一个分式与独立,所以只余下与平方误差成比例的第二个分式。

2.5贝叶斯错误

当然,对使用最小二乘估计和极大似然估计都会导致过度拟合。为了控制模型的复杂性,我们并没有过早正则化权重惩罚函数,而是定义先验分布,

(10)

这是一个零均值高斯先验分布,该分布满足使越小的权重越有可能成为先验从而实现对平滑模型的自动选择。尽管对每一个权重而言,先验概率是独立的,但是共享的逆方差超参数,类似于先前所说的,可以用于减轻我们主观的强度。

2.6 后验推理

在前面的2.1节,在给定误差测定和正则化矩阵的条件下,我们计算了一个简单的对于权重的点估计。现在,给定概率和先验概率,我们通过贝叶斯法则计算w的后验分布:

(22)

作为高斯先验分布和高斯似然线性模型的结合,后验分布也是满足高斯分布的:,其中:

(12)

(13)

所以我们推导w所有可能取值的分布而非“学习”w的某单一值。实际上,我们已经根据数据提供的信息更新我们对参数取值的先验“可信度”。对于在先验概率下很有可能的和“描述数据”的值,我们会给予较大的后验概率。

2.6.1 最大后验概率估计:一个贝叶斯捷径

w的最大后验概率估计是指在后验分布下单一最有可能取值。又因为式(11)的分母是与w独立的,所以该估计相当于最大化分子或者是最小化。保留依赖于w的分式,我们可以得出:

(1

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[148864],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。