特征脸与 Fisherfaces ︰ 使用类特定线性投影识别外文翻译资料

 2022-09-10 22:13:18

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


特征脸与 Fisherfaces ︰ 使用类特定线性投影识别

Peter N. Belhumeur, Jo~ao P. Hespanha, and David J. Kriegman

摘要:我们开发的是对照明方向和面部表情的较大变化不敏感的人脸识别算法。我们使用模式分类方法将图像中的每个像素当做是高维空间中的坐标。在高维图像空间的一个3D线性子空间中,观察固定姿势的特定人脸在不同光照条件下的变化。假设这张脸是一个没有阴影的朗伯表面。然而,由于人脸不是真正的朗伯体表面并且还会产生自我阴影,因此图像会偏离这个线性子空间。我们以一种削弱较大偏差人脸区域的方式将图像呈现到一个子空间,而不是直接的的建立偏差模型。项目所用的方法是基于Fisher的线性判别,并且得到了在低维空间中分类好的类,甚至是在光照和表情变化剧烈的条件下。特征脸技术是另一种基于将图像空间线性投影到一个低维子空间的方法,有类似的计算要求。然而,大量在Harvard和Yale人脸库上的实验结果表明Fisherface算法比特征脸算法的错误率低。

索引术语:基于外观的视觉,人脸识别,光照不变性,Fisher线性判别

  1. 介绍

在过去的几年里,大量的人脸识别算法被提出。详细调查见文献[1]、[2]。虽然在光照、面部表情和姿势的细微变化条件下的人脸识别取得了巨大的进步,但是在极端变化条件下可靠的识别方法还是难以实现。

在这篇论文中,我们提出了一种新的人脸识别方法——对光照和表情的较大变化不敏感。注意一下光照变量不仅包括亮度信息,还包括方向和光源的数量。从图1中明显看出,从同样的角度看同一个人的同一个表情,当光源从不同的方向照射这张脸时,结果大不相同。图4也可以看出同样的效果。

我们的人脸识别方法提出了两点:

  1. 朗伯面的所有图像都是从一个固定视角获取,但是是在不同的光照条件下。这些图像位于高维图像空间一个3D线性子空间。
  2. 由于阴影区域、高光和面部表情,上述说法并不完全站得住脚。在实际中,不同图像间面部的特定区域可能不尽相同,这些区域经常严重偏离线性子空间,导致的结果就是识别不那么可靠。

我们利用这些观察结果来找到这些人脸从高位图像空间到显著低维特征空间的一个线性投影。这个低维空间对光照方向和面部表情的变化都不敏感。所选的投影方向几乎与类内离散度正交,在保持辨识度的同时消除光照和面部表情的变化。本文所用的Fisherfaces方法类似于Fisher线性判别(FLD)方法(参考文献[4],[5]),最大化类间离散度与类内离散度的比值。特征脸法也是基于将图像空间线性投影到一个低维特征空间(参考文献[6],[7],[8])。然而特征脸法使用主成分分析法降维,所产生的投影方向使得所有类(所有的人脸的所有图像)的整体离散度最大化。在选择这个使得整体离散度最大化的投影时,主成份分析法保留了多余的光照和面部表情的变化。如图1和图4所示,正如Moses et al.所说,同一张人脸由于光照和视角所产生的变化比改变人脸特性产生的图像变化要大得多(参考文献[9])。因此,尽管主成分分析投影法可以最佳的从低维基础重建图像,但是从辨识度的角度来看可能不是最佳选择。

图1 同一个人从不同光照角度看结果截然不同:左边图像中可控光源几乎是正面的,右边图像中可控光源是从头顶向右边照射的。

应当指出的是,Fisher线性判别在模式识别中是一个经典的方法(参考文献[4]),1936年首次被Robert Fisher提出用于分类(参考文献[5])。在已有的特征基础上,Fisher线性判别已经以不同的方式应用于机器视觉甚至人脸识别。Cheng et al.提出一种使用Fisher线性判别识别人脸的方法,这个方法使用一种截然不同的形状量化法来提取特征(参考文献[10])。Baker和Nayar提出了一种基于一个两类线性判别法的模式拒绝理论(参考文献[11])。在我们研究的同时期(参考文献[12]),Cui et al.将Fisher判别法(另外一种专业术语称为最多判别特征——MDF)应用于手势识别(参考文献[13])。尽管没有任何实施的报道,他们还是认为这个方法可以应用于在变化的光照条件下的人脸识别。

在接下来这一节中,比较在不同光照和面部表情条件下的四种人脸识别方法:相关性是特征脸法(参考文献[6],[7],[8])和本文提到的Fisherface法提出的线性子空间的一个变量(参考文献[3])。使用Harvard人脸库(330张图,参考文献[14],[15])的一个子集和Yale人脸库(160张图)来测试比较。在两个数据库上的测试结果表明,Fisherface方法比其他三种方法的错误率都要低。迄今为止,还没有在更大的数据库上使用这些算法做相关测试的声称。

应当指出的是我们没有试图处理姿势的变化问题。不论是使用例如Pentland et al的基于角度的特征空间(参考文献[16])的多视角展现法,还是Murase和Nayar的多样外观法(参考文献[17]),类似我们这样基于外观的方法都可以延伸到处理有限的姿势变化。其他包含姿势变化的人脸识别方法见参考文献[18],[19],[20]。此外,我们假设这些人脸占据整张图片,目前也有大量在环境中检测人脸的方法(参考文献[21],[22],[20],[23],[24],[25],[7])。

2. 方法

问题可以简单的表述为:给出一套标记好身份的人脸照片(训练集)和同样一群人的没有标记的人脸照片(测试集),辨认测试集中的每一个人身份。

在这一节中,我们测试了四种用于人脸识别问题的模式分类技术,将在人脸识别资料中常见的相关和特征脸法与本文作者提出的其他的方法作比较。我们使用模式分类范例处理这个问题,将样本图片的每个像素值看成是高维空间(图像空间)的一个坐标。

2.1 相关性

也许最简单的分类方法是图像空间的一个最近邻分类器(参考文献[26])。在这个方法中,测试集的一幅图像通过指定训练集中最近的点的标签来识别(分类),他们的距离是在图像空间计算的。如果所有的图像都标准化为均值为0方法为1,那么这个过程等价于在训练集中选择与测试集相关度最好的图像。由于归一化过程,结果与光源的亮度和摄像机的自动增益控制无关。

这个过程后来被称为相关性,它有很多众所周知的优点。首先,如果训练集和测试集是在不同的光照条件下获取的,那么图像空间中相应的点可能不会密集的聚集在一起。因此,为了让这个方法在不同光照条件可靠的起作用,我们需要一个将可能的光照条件连续密集的取样的训练集。第二,相关性的计算成本很大。对于识别,我们必须将测试集的照片与训练集的每一个照片关联;为了减少计算时间,这部分的算法(参考文献[27])可以用已经开发的专用VLSI硬件(参考文献[26])描述。第三,需要巨大的存储——训练集必须包括每一个人的多张照片。

2.2 特征脸

由于相关性法计算成本高且需要巨大的存储,很自然的就想到了寻找降维的方法。目前在计算机视觉常见的降维方法——特别是人脸识别——是主成分分析法(PCA,参考文献[14],[17],[6],[7],[8])。主成分分析法,也以Karhunen-Loeve法著称,是选择一个维度减少线性投影来使得所有的投影样本离散度最大。

更正式的说,假设有一个N张样本图像集,在一个n维图像空间取值,并且假设每张图片属于c类中的一类。先考虑一种线性变换将原先的n维图像空间转换到一个m维特征空间(mlt;n)。新的特征向量由以下的线性变换定义:

(1)

此处是一个各列相互正交的矩阵。

如果整体的协方差矩阵定义如下:

N是样本图像数量,是所有样本的平均值,使用线性变换以后,转换后的特征向量的离散度是。在主成分分析法中,选用的投影矩阵是投影后的样本整体离散度的决定性因素。

(2)

此处的是矩阵n维特征向量中最大的m个的集合。由于这些特征向量与原始图片的维度相同,因此它们在文献[6]中被当做特征图片,在文献[7]和[8]中被当做特征脸。如果使用最近邻分类器在降维的特征空间分类,并且在N个训练集中选择m个图像,那么特征脸法等价于在之前的章节讨论的相关性法。

这个方法的缺点是不仅对于分类有用的类间离散度被最大化了,对于分类无用的类内离散度也被最大化了。回想起Moses et al.说的话(参考文献[9]):不同图像间的大部分变化多事由于光照的改变。因此主成分分析法使用的是在不同光照条件的人脸图片,那么在投影特征空间投影矩阵里的主成分(特征脸)将会保留光照变量。造成的结果是投影空间的点比较分散,更坏的情况是类可能会相互重叠。

据说去掉三个最重要的主成分可以减少光照变化。所希冀的是如果第一个主成分捕捉到的是光照信息,那么忽略它的话可以使投影后的样本聚集的更好。然而,似乎第一主成分并不仅仅与光照有关;因此用于识别的信息可能会丢失。

2.3 线性子空间

相关法和特征脸法都受到光照方向变化的影响。两者都不能运用对于一个没有阴影的朗伯体,特定人脸存在于一个3维线性子空间的观察结果。

考虑朗伯体表面一个被无穷远处的点光源照射的点。其中是一个单位列向量,用于表示光源方向的光照强度。用相机拍摄表面时,这个点的图像亮度公式如下:

(3)

表示点p表面的单位中心向量,表示p表面的反射率(参考文献[28])。这个公式表明点p的图像亮度在是线性的。因此,没有了阴影的话,从三个已知的线性无关的光源方向的得到的一个朗伯体表面同一角度的三幅图片,反射率和曲面法线都可以被覆盖:这在立体光学法中是一个著名的方法(参考文献[29],[30])。或者,在任意光照条件下通过线性组合最初的三张图片可以重建表面图像,见文献[3]。

对于分类来说,这个事实有着重要的意义:它表明对于一个固定的视角,朗伯体表面位于高位图像空间的一个3维线性子空间。这个观察结果暗含了一个识别朗伯体表面的简单分类器——对大范围的光照条件不敏感。

对于每张人脸,使用在不同光照方向的三张或者更多的图像来建立线性子空间的3维基础。注意到这三个基向量与训练集图像有同样的维度,可以看做是基图像。为了演示识别,简单的计算新图片到每一个线性子空间的距离,并选择距离最近的人脸图像。这个识别方法称为线性子空间法。要指出的是这个方法与文献[3]中的光度校准法是不同的,并且是文献[15]描述的更加复杂的识别方法的特例。之后,Nayar和Murase利用光照显著的线性性来支持他们的外观多样性(参考文献[31])。

如果没有噪声和阴影,而且表面遵循朗伯体反射模型,线性子空间法在任何光照条件下将会达到零错误率。然而有几个原因让我们不得不寻找其他的方法。首先,由于自阴影,镜面反射和面部表情的影响,人脸的一些区域变化不符合线性子空间模型。如果有足够多的人脸图像,应该可以学习到对于识别有无作用的区域。第二,为了识别测试图像,必须测量图片到线性子空间的每一个人脸的距离。尽管这个方法相比较相关法需要更多图片来显示每一类的变化要进步许多,但是计算成本还是很大。最后,从存储角度看,线性子空间算法必须给每一个人的三张图像分配内存。

2.4 Fisherfaces

之前的算法利用了这样一个事实:在不可否认的理想化条件下,类内变化存在于图像空间的一个线性子空间。因此,各个类是凸起的,也因此可以线性分离。你可以使用线性投影降维,这样各个类还是保持了线性可分离性。在人脸识别问题上这个论据可以强有力的支持使用线性方法降维,至少对寻找对光照条件不敏感的方法有用。

既然训练集已经标记好了,那么使用这些信息建立一个更可靠的方法对特征空间降维就很有意义了。在此我们认为使用特殊的线性分类法用来降维,在低维空间使用简单的分类器,这样得出的识别率比线性子空间和特征脸法都要好。Fisher线性判别(FLD,参考文献[5])是特殊分类器的一个例子,某种意义上,它试图塑造离散度来使分类更可靠。文献[1]中这种方法是通过使得类间离散度和类内离散度最大化来选择W。

类间离散度矩阵定义如下:

类内离散度矩阵定义如下:

此处的是类的平均图像,是类中样本的数量。如果不是奇异矩阵,那么最佳投影被选作列向量正交的矩阵,这个矩阵可以用来将投影后样本的类间离散度矩阵与类内离散度矩阵的比值最大化。

(4)

是和矩阵最大的m个特征值对应的的所有特征向量。

注意到至少有c-1个非零广义特征值,所以m的上限是c-1,c是类的数量。见参考文献[4]。

为了阐述类特定线性投影的优点,对分类问题建立一个低维模拟,使得各类的样本近似位于一个线性子空间。图2是PCA和FLD二分类问题的比较,样本随机分布在与线性子空间垂直的方向。举个例子,N=20,n=2,m=1。由此每一类的样本近似位于2维特征空间中经过原图的一条线上。PCA和FLD都用来将2维空间的点投影到1维空间中。从图中比较两种投影方法,PCA实际上将类重叠到一起,在投影空间不再线性可分离。很明显,尽管PCA达到更大的整体离散度,但是FLD达到更大的类间离散度,结果使得分类更简单。在人脸识别问题中的难点就是类内离散度矩阵总是奇异的。这是因为的阶数最大是,一般而言,训练集中图像的数量N比每一幅图像的像素数n要小得多。这意味着有可能选出矩阵W使得投影后的样本的类内离散度为零。

图2 PCA和FLD对于二分类问题的比较,每一类数据近似位于线性子空间

为了克服奇异矩阵的复杂性,对公式(4)的标准提出一个解决方法。这个方法称为Fisherfaces,通过将图像集投影到一个低维空间使类内离散度矩阵不再奇异来避免这个问题。首先使用PCA将特

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[146046],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。