`
gogohulo
  • 浏览: 27689 次
  • 性别: Icon_minigender_2
  • 来自: 济南
社区版块
存档分类
最新评论

模式特征抽取研究进展

 
阅读更多

模式特征抽取研究进展
2011年06月16日
  模式特征抽取研究进展
  杨静宇,金忠,杨健
  南京理工大学计算机科学与技术学院,210094,南京
  摘要:
  特征抽取不但从原始模式信息中提取出最有利于模式分类的特征,而且极大地降低模式样本的维数,是模式识别研究领域的重要研究内容。本文首先简要回顾模式特征抽取的经典方法,然后介绍近年来在主分量分析、非线性鉴别分析、流形学习、基于稀疏表示的图像特征抽取等方面的理论和方法研究的主要进展,最后分析了模式特征抽取研究趋势。
  1.引言
  模式识别是一个与人类的认知、视觉和听觉过程紧密相连的问题,其核心研究问题之一就是特征抽取(Feature Extraction)问题。人脑在每天感知外界事物的过程中,首先面临着一个特征抽取的问题,即利用大约3万听觉神经纤维和100万视觉神经纤维,从高维的感官输入信息(如视频图像、音频信号等)中抽取便于管理的很小数量的感知关联特征来完成对事物的认识。
  从模式样本的原始信息中提炼出最有利于模式分类的有效信息这一过程通常称为模式特征抽取。因此,特征抽取的过程本质上可以看成在一定准则下的优化问题。同时,在特征抽取的过程中,也极大地降低了模式的维数。因此,特征抽取不但从原始模式信息中得出了最有利于模式分类的特征,而且这些特征与原始样本信息相比,极大地降低了模式样本的维数,因此特征抽取也是一种维数削减的有效方法,这一点对高维模式样本(例如图像)识别而言十分重要。模式特征抽取问题可以定义为:在高维的观察样本空间中寻找其隐藏的有意义的低维数据结构,并藉此分析和探索事物的内在规律。在众多学科领域的研究中,科学工作者们经常需要处理海量的高维数据,如全球气候模式、恒星光谱、人类基因分布、遥感及视频图像等,因此,模式特征抽取问题研究具有广泛的应用前景。
  国内外关于模式特征抽取理论与方法研究如火如荼。总体来说,特征抽取技术可分为两大类:线性特征抽取和非线性特征抽取。目前,线性特征抽取算法研究的侧重点在于小样本问题,该问题和样本数据的高维性是紧密相关的,因此在特征抽取研究中是不可回避的。对于非线性特征抽取,近年来无论理论研究还是应用开发都取得了长足的发展,有两个较大的分支值得注意。一是基于kernel的特征抽取技术[1-3],以支持向量机、kernel主分量分析和kernel鉴别分析为代表;二是以流形学习(manifold learning)为主导的维数约减理论和技术[4],2000年SCIENCE(科学)上的两篇文章开创了流形学习的先河[5,6]。有证据表明,基于流形学习的维数约减方法与人本身的认知机理具有某种内在的关联性,故该方法有着潜在的重要的研究价值。
  图像是一种包含大量信息的媒体,图像信息的采集、处理、分析、检索和识别是当前信息科学与技术领域非常重要的研究课题。图像自动处理与分析是模式识别与计算机视觉学科研究的主要内容,图像特征抽取理论研究丰富与完善了模式特征抽取理论体系。近年来,有关生理学的研究成果表明:人类的视觉系统具有对图像的稀疏表示特性[7],基于稀疏表示的压缩感知理论已引起信息论及相关领域极大的兴趣和广泛关注[8-10],为模式特征抽取研究领域注入了新鲜的血液与发展动力。
  本文介绍近年来在主分量分析、非线性鉴别分析、流形学习、基于稀疏表示的图像特征抽取等方面的理论和方法研究的主要进展,并分析了发展趋势。
  2. 主分量分析
  2.1 K-L变换
  在统计模式识别理论中,主分量分析(Principal Component Analysis, PCA, 或称K-L变换)是最为经典的特征抽取方法[11-12]。设 为m维随机变量,主分量分析可以定义为寻找 个相互正交的m维单位向量,使得如下均方误差最小:
  这里, 称为模式 第 个主分量, 为m维随机变量 的协方差矩阵 的前 个最大特征值所对应的本征向量:
  其中 。
  主分量分析也可以等价地定义为寻找 个m维单位向量 ,使得如下方差 最大:
  PCA特征 能够最大保持模式 的内在分布规律、并消除模式分量之间的相关性,可以实现模式样本的维数削减。PCA使用线性模型来描述数据,具有简单,便于计算等优点,得到了广泛的应用。
  2.2 非线性主分量分析
  对于复杂模式来说,线性模型过于简单了,以至于无法反映复杂模式的内在规律。理论与实验都证明,复杂模式的特征之间往往存在着高阶的相关性,因此观测数据集呈现明显的非线性。为了适应这一特征,有必要将PCA向非线性推广。   
  KPCA (核主分量分析)是一种成功的非线性主分量分析方法[2-3],它旨在将输入空间通过非线性函数映射到更高维特征空间,并在高维特征空间中应用PCA方法。由于在输入空间中数据分量间存在复杂关系的情况下,在输入空间中应用PCA这一线性方法不能捕获对样本数据描述能力强的特征;此时,KPCA方法的意义得以彰显:KPCA在由非线性映射而得的高维空间中应用PCA的手段,因此,它仍能捕获对特征空间中样本数据描述能力强的特征。KPCA 方法广泛地应用于特征抽取, 人脸识别, 图像处理等问题。基于KPCA 方法对某样本进行特征抽取时, 需计算该样本与所有训练样本间的核函数; 训练样本集越大, 相应计算量也越大, 效率也越低, 而很多实际的模式分类任务要求系统具有较高的效率。因此,KPCA存在的其特征抽取效率随着训练样本集增大而下降的特点会使得该方法很难满足实际应用的效率需要,这将影响甚至制约该方法的推广和应用。
  KPCA通过核技巧能够成功地将非线性的数据结构尽可能地线性化,其局限性就是它的计算复杂度。直观上,对于全局结构非线性的数据来说,从局部看,数据可以呈现出线性性质,因此用来描述数据的局部线性结构的局部PCA方法吸引了研究人员的兴趣[13-16]。Liu与Xu借助于Kohenen自组织映射神经网络提出了拓扑局部PCA模型[17],该模型能够利用数据的全局拓扑结构与每个局部聚类结构。应用比较广泛的局部PCA方法是一个两步方案,首先利用矢量量化技术将数据空间分成若干个区域,然后在每个局部区域进行PCA分析。神经网络方法应用起来不方便,而两步方案的局部PCA方法描述局部的程度也不够充分。
  在实际应用中,数据中可能存在孤立样本。 例如,在计算机视觉问题中,由于遮挡、光照条件变化,图像数据容易受到很大的影响。由于协方差矩阵对孤立样本是非常敏感的,从而由解协方差矩阵的特征矢量问题得到的PCA特征的有效性会受到孤立样本的很大影响[18]。 Xu等假定所有的数据样本都是孤立样本[19],通过利用统计物理方法由边际分布定义出能量函数建立了鲁棒PCA的自组织规则。Torre与Black提出了能够学习高维数据(例如:图像)的线性多变量表示的鲁棒PCA[20]。解决孤立样本问题的其它方法是建立协方差矩阵的鲁棒性估计,另一些方法是利用投影追踪(Projection Pursuit)技术[21-22]。最近,Burton利用平均技术得到人脸图像的鲁棒PCA表示[23],而Zhao与Xu将常用的平方误差准则替换成对数平方误差准则建立了鲁棒PCA方法[24]。在高维空间,由于样本数的限制,孤立样本的判断更加困难,统计方法不再那么有效。
  最近,Xu研讨了KPCA特征抽取的加速方法[25],Das提出了依赖于类的主成分分析(Classwise PCA),适合于类重叠度高的分类问题[26-27]。Park等提出了类增强的主成分分析(Class-Augmented PCA)[28],分成三个步骤:对类信息编码、将编码信息增强进入数据、对类增强数据进行主成分分析。
  2.3 二维主分量分析与张量分析
  常规的PCA技术是针对矢量数据而言的,对于计算机视觉中的图像数据,一个直接的方法是将图像的各个象素数据叠加成一个矢量数据,但其维数就相当地高了。在高维空间中,由于训练样本数是有限的,很难精确地估计协方差矩阵。另外,将二维的图像矩阵转化为一维的矢量,只能部分保持图像像素的邻近关系。
  设 为维随机矩阵, 二维主分量分析(Two-Dimensional PCA, 2DPCA)[29-30]可以定义为寻找 个n维单位向量,使得如下协方差矩阵的迹 最大:
  这里, 为 维图像协方差矩阵。  可以称为2DPCA特征,其维数是,这样2DPCA需要比PCA更多的表示系数。
  与常规的PCA的协方差矩阵相比,直接利用原始的图像矩阵构造的图像协方差矩阵维数要小得多。因此,2DPCA具有如下重要的优点:不改变图像像素的邻近关系,容易精确地估计图像协方差矩阵,计算相应的本征矢量所需要的计算量明显降低。
  2DPCA的提出引起了众多研究人员的极大兴趣,不时可以看到新的研究成果发表[31-35],已经引导出一系列的后续研究论文,主要集中在对算法的理解与计算技巧上[36]。Nagabhushan等将2DPCA用于3D物体识别[32],Zuo等提出了一个聚集的矩阵距离测度来度量两个矩阵特征的距离[33], Chen等甚至提出了将矢量数据矩阵化的特征抽取方法[34]。Wang等研讨了图像PCA方法与按行分块的分块PCA方法的等价性问题[35]。分块PCA方法看上去思路很简单,更容易直观理解。
  2DPCA作为“most popular dimensionality reduction algorithms”(最流行的维数削减算法)之一纳入到图嵌入的框架中[37].最近的研究工作进一步揭示了2DPCA用于图像表示的不变性[38],即水平2DPCA 的变换矩阵独立于图像行序列的任何变化,竖直2DPCA 的变换矩阵独立于图像列序列的任何变化。
  2DPCA思想激发了特征抽取理论与应用从1阶张量(向量),到2阶张量(即矩阵)再到高阶张量的发展历程。最近,Xiaofei He等提出了张量子空间分析方法[39], Wang等提出了二维图像与高维张量数据的Datum-as-Is表示法[40]。
  3.鉴别分析
  3.1 线性鉴别分析
  线性鉴别分析(Linear Discriminant Analysis, LDA)的基本思想是由Fisher最早提出的,其目的是选择使得Fisher准则函数达到极值的向量作为最佳投影方向,从而使得样本在该方向上投影后,达到最大的类间离散度和最小的类内离散度。在Fisher思想的基础上,Wilks[41] 和Duda[42] 分别提出了鉴别矢量集的概念,即寻找一组鉴别矢量构成子空间,以原始样本在该子空间内的投影矢量作为鉴别特征用于识别。
  Fisher线性鉴别分析无论在理论上还是在应用上都取得长足的发展[43-46],成为一种广泛使用的、十分有效的特征抽取工具。在特征抽取的理论中,要求抽取的特征之间尽可能是不相关的,这一要求的出发点是有利于提高模式识别的准确性和实现最大限度的维数削减。Jin等[44-45]提出了具有统计不相关性的最优鉴别分析的概念和相关理论,该理论从统计不相关的角度,提出了具有统计不相关性的最优鉴别矢量集的定义。著名的Foley-Sammon鉴别矢量集通常难以消除模式样本特征之间的相关性,甚至经过Foley-Sammon变换后的特征分量之间有时是强相关的。与Foley-Sammon鉴别矢量集只满足正交条件不同的是,具有统计不相关性的最优鉴别矢量要求满足共轭正交条件。Jin等[45]揭示了两个经典的鉴别准则与之间的理论联系,建立了在特征提取投影方法中几何上的概念“正交条件”、“共轭正交条件”与统计上的概念“相关”、“不相关”之间的理论联系。
  对于类别协方差矩阵不同的情况,异方差鉴别分析方法[46]可以得到比LDA 更好的分类性能。 Ridder对Fisher准则函数加以改进,将Fisher鉴别分析的理论体系加以拓广,使得其在理论和算法上具有更广泛的适用性[47]。H.F. Li等提出了最大边际准则[48],用差分代替经典线性鉴别中的商,所以对类内散度矩阵的奇异不敏感。Song等提出了大间距线性投影鉴别准则[49]以及最大散度差鉴别准则[50]。Kwak等提出了模糊Fisher分析方法[51],Zhuang等提出了逆Fisher鉴别分析方法[52],Yang等研讨了模糊逆Fisher鉴别分析方法[53]。
  3.2 小样本问题
  小样本问题是鉴别分析中的一个棘手问题,也是一个研究热点,它产生的主要原因是:模式识别中样本的维数往往大大超过训练样本的个数,这样就会造成类内散度矩阵的奇异。
  解决小样本问题较早的是1989年J.H. Friedman等提出的正则化鉴别分析方法[54],通过增加扰动使类内散度矩阵非奇异。Hong等使用奇异值扰动的方法来解决类内散度矩阵的奇异问题[55],并证明了这种扰动的稳定性和最优性。Yang等提出了秩分解方法[56-58]。Hastie提出了惩罚鉴别分析[59]。P.N. Belhumeur等[60]提出了PCA+LDA的两步鉴别分析方法,首先用PCA 降维,使类内散度矩阵不再奇异,然后再执行线性鉴别分析(LDA)。
  L. Chen等提出了零空间的鉴别分析方法[61],在类内散度矩阵的零空间中寻找鉴别信息。Hua Yu等提出了直接的线性鉴别分析方法[62],通过先对角化类间散度矩阵后对角化类内散度矩阵来执行LDA。  Yang等证明了在PCA的变换空间中执行线性鉴别分析的合理性[63],并提出了组合的线性鉴别分析方法。 P. Howland等[64]利用广义奇异值分解解决小样本的奇异问题。
  一些实用的近似算法也相继提出[65-67]。Thomas提出了基于直接协方差矩阵选择的线性鉴别分析方法[68] 。Liu等[69]在Triangle square ratio准则下将组合的线性鉴别分析应用于人脸识别, Kyperountas等[70]提出了解决小样本问题的加权分段LDA方法。最近,Jiang等[71]提出本征谱的正则化方法。
  3.3 非线性鉴别分析
  关于非线性鉴别分析的研究最早追溯到二十世纪七十年代。当时,K. Fukunaga提出了一系列基于改进Fisher准则的非线性鉴别分析方法[72]。但是,由于这些算法都是针对一些特定的问题提出的,再加上其具体实现的复杂性,使得这些非线性鉴别分析方法一直没有得到广泛的应用。直到九十年代,随着统计学习理论的成熟和支持向量机(Support Vector Machine, SVM)在模式识别领域的成功应用,一些基于kernel的非线性特征抽取方法相继产生[73]。在kernel主分量分析理论与算法基础上,Mika提出了kernel鉴别分析的概念[74]。由于Mika的方法只适用于两类问题,Baudat等[75]提出了适用于多类问题的kernel鉴别分析算法。随后的研究者分别从不同的角度应用和发展了非线性鉴别分析理论与算法。
  由于Kernel鉴别分析的计算复杂度与训练样本的个数有关[76-77],即为训练样本个数的三次方。当训练样本个数较大时,Kernel鉴别分析算法的计算效率受到严峻的挑战,如何大幅度地提高核鉴别矢量的计算效率,设计出更为高效的Kernel鉴别分析算法,乃当务之急[76-78]。现有鉴别分析的稳健性和抗干扰能力有待验证,如何设计稳健的鉴别分析算法也是一个待研究的重要课题[79-80]。
  Yang等[81-82] 证明了KFDA的本质是KPCA+LDA,并在无限维的Hilbert 空间内建立了完备的Kernel Fisher鉴别分析KPCA+LDA的两阶段构架,充分利用了两类非线性鉴别信息,提高了非线性鉴别特征的有效性。Zafeiriou等[83]以“KFDA等价于KPCA plus LDA”为理论基础导出了最小类方差的支持向量机算法。
  3.4 二维线性鉴别分析
  受2DPCA的启发,有学者陆续提出了二维线性鉴别分析(2DLDA)方法[84-87]。Nhat等提出了具有一定鉴别信息的图像PCA方法[88], Jing等研讨了两阶段的二维鉴别分析方法[89], 这就是2DPCA+LDA。
  Qiu与Wu提出了二维最近邻鉴别分析方法以改进最近邻分类的性能[90]。Zhi与Ruan提出了二维直接加权线性鉴别分析方法[91],首先基于图像矩阵计算图像协方差矩阵,然后利用加权方法减弱类重叠的影响,再利用直接LDA方法提取鉴别特征。Liang等[92]分析了二维鉴别分析准则的上界,研讨了在相同维度下,二维鉴别分析方法的局限性。Zheng等[93]对一维鉴别分析与二维鉴别分析进行了比较研究,提出了二维鉴别分析作为Bayes最优特征抽取方法的充分条件。
  最近,Wang等将二维主分量分析与二维极大散布差组合在一起[94],提出了二维极大散布差鉴别分析方法。Yang等[95] 认为极大边界准则忽略了样本局部结构鉴别信息以及嵌入在图像内的结构信息,提出了基于拉普拉斯双向极大边界准则的鉴别特征抽取方法,通过将图像类内拉普拉斯矩阵与图像类间拉普拉斯矩阵的差异在行、列两个方向上的极大化来计算鉴别矢量。
  将二维的方法扩展到多维,Yan 等[96]提出了基于张量的鉴别分析方法。最近,Zhang等[97]提出了张量线性拉普拉斯鉴别(Tensor linear Laplacian discrimination, TLLD)算法。它是线性鉴别分析(LDA)与线性拉普拉斯鉴别(LLD)在非线性子空间学习和张量表示两方面的拓展。Nie等[98]提出确定局部张量鉴别分析维数的算法。
  4.流形学习
  4.1 流形学习定义
  理论与实验都证明,复杂模式的特征之间往往存在着高阶的相关性,因此数据集呈现明显的非线性性,并且往往是由一组维度远远低于样本维度的隐含变量决定的。在数学上,具有上面性质的模型是流形。以流形为模型,利用流形的基本假设和性质来研究高维空间中的数据分布,达到简约数据,降低维度,探寻复杂模式的内部规律的学习方法被称为流形学习。2000年,Seung提出感知以流形方式存在[5],并通过实验证明了人脑中的确存在着稳态的流形。这为统计模式识别与人类感知架起了一座桥梁[99,100],使得流形学习具有了更加坚实的理论基础。
  流形学习可形式化定义为:令 是包含在 欧式空间中的 维域,令 为一光滑嵌入,其中 。数据集 由某个随机过程生成,经映射形成观测空间的数据集 。一般称 为隐空间, 为隐数据。流形学习的目标是要从观测数据 中重构映射 和 。
  流形学习的核心,是如何合理有效地对数据进行流形建模,即如何找到一个好的流形模型,能够较好的逼近数据,使得数据的内在结构性质能够在流形上良好地保持下来,以便研究者通过对流形模型的研究,获得对数据集内在结构的深刻认识。对数据进行流形建模主要有两条途径:“隐式”的图嵌入方法、“显式”的主流形方法。
  4.2 图嵌入方法
  图嵌入方法并不在观测空间中构造学习流形,而是学习观测数据之间的近邻关系或者全局关系,并在低维特征空间中重现这种关系,从而实现从低维特征空间到高维观测空间的一个隐式的流形映射。
  2000年在Science上发表的文章分别提出了局部线性嵌入(LLE)[6]与等度特征映射(Isomap)算法[101],奠定了流形学习的基础。随后M. Belkin 等又提出了拉普拉斯特征映射的方法[102]。经过近些年的发展,不断涌现出LTSA[103], HLLE[104], SDE[105-106], Diffusion Map[107-108]等方法,以及算法之间的关系[109-112]。目前,流形学习的研究正进一步走向深入。
  Xiaofei He等将拉普拉斯特征映射方法线性化,提出了局部保持投影方法(LPP)[113],将流形学习方法成功运用于鉴别分析中。LPP只考虑了局部信息,Jian Yang同时考虑了局部信息和全局信息,提出了非监督的鉴别投影(UDP)[114]。 Chen 等提出了局部鉴别嵌入(LDE)[115],Yan等提出了边界Fisher分析方法(MFA)[110],Sun等提出了局部保持的典型相关分析算法(LPCCA)[116],促进了高维小样本情况下特征抽取与鉴别分析的发展,并取得了广泛的应用成果[117-118]。
  最近,Pan等提出了非监督学习的加权的局部线性嵌入(WLLE)方法[119],用以发现数据中的诸如邻近关系、全局分布、聚类的本征结构,其主要优势在于通过避开不合理的邻居搜索优化了本征结构发现的过程。Hou等提出了一种稳定的局部维数削减方法[120],LLE、LE、LTSA可以分别发展为SLLE、SLE、SLTSA。Liu等[121]提出了一种多层等距特征映射方法(Multi-Layer ISOMAP)。
  在二维局部保持投影方法(2DLPP)[122-123]的基础上,Zhi与Ruan提出了二维局部保持的鉴别投影方法[124],Wan等提出了二维局部图嵌入的鉴别分析方法[125]。
  4.3 主流形
  主流形方法力图在高维观测空间中直接构造学习流形来逼近观测数据,可以追溯到上世纪80年代Hastie的HS主曲线[126]及其后续的一些主曲线工作:K主曲线[127-128],概率主曲面[129],正则主流形[4],非监督核回归主曲面[130]等。
  HS主曲线[126]强调流形的自相合性质,即位于数据分布的“中间”的性质;K主曲线[127-128]是有限弯曲的主曲线与正则主流形,在最小二乘意义下最小化流形到观测数据集的距离。产生式拓扑映射(GTM) [131]与概率主流形(PPM) [132]是从密度函数估计的角度来学习流形。D主曲线[133]从数据投影的方差性质出发学习流形。
  主流形方法能够明确地构造逼近数据的流形,因此能够较为灵活地逼近数据,并能够在流形上进行各种分析,如与数据集的距离,样本之间在流形上的距离等,并且不局限于流形的连通性等限制,是一种具有吸引力的流形学习方法。但面临模式特征抽取任务时,传统的主流形方法具有以下问题:
  l        与模式统计特征抽取关系不明确。主流形方法往往应用于数据描述任务,例如字符骨架提取,图像目标边缘描述等,但其在模式统计特征抽取中的应用还存在理论和算法上的困难。正如Smola[4]指出的那样,传统主流形方法是适合于数据描述任务(即探究数据具有何种典型性质)的学习方法,而非适合于特征抽取任务(即探究何种特征能够可靠地反映数据的内在结构)的学习方法。
  l        主流形方法需要构造较为复杂的非线性模型,并进行优化,因此其常常面临着初始解质量不佳以及优化算法的局部最优问题。
  l        主流形逼近的约束问题。无约束地用流形任意逼近数据会导致无意义的解。如何为流形选择适当的约束,是主流形学习的关键。正则主流形方法在数据描述任务背景下为主流形学习提供了一个统一的正则化框架,而特征抽取任务下的流形逼近约束任务尚没有得到深入的研究。
  在主流形学习的初始解选取方面,非监督核回归主曲面[130]首先采用传统统计特征抽取方法,如PCA,KPCA等或者图嵌入方法,如LLE,ISOMap等来提供隐变量初始解;然后,以留一重构误差为目标,进一步优化隐变量,在特征抽取方面取得了好的结果。非监督核回归主曲面方法展示了图嵌入这种“隐式”的流形学习方法,同主流形或隐变量模型这种“显式”的流形学习方法结合的思路。在[134-135]中,以LaplacianEigenmap方法得到的特征作为隐变量,可以构造隐变量模型,实际上构造了一个主曲面。
  近年来,主流形方法在初始化,学习算法,正则约束条件等方面都取得了一定的进展。Sun等提出了相似性保持的主曲线理论[136, 159],将保持样本之间的相似性关系作为主曲线学习的目标之一,并基于此,发现相似性保持主曲线的投影指标函数是一个鲁棒的特征抽取器,从而为主流形方法走向统计特征抽取架起了桥梁。在主流形学习的正则约束方面,Feuersanger等[160]考虑了在稀疏网格上学习主流形,稀疏性保证了学习流形的简单性,从而可能获得较好的推广性能。
  5. 基于稀疏性理论的图像特征抽取
  Serre在其博士论文中指出,人类的视觉系统具有对图像的稀疏表示特性[7]。科学工作者们揭示了在低层和中层的人类视觉系统中,视觉通道中的许多神经元对大量的具体的刺激,比如目标的颜色、纹理、朝向和尺度等,具有选择性。若将这些神经元视为视觉阶段的超完备集中的信号基元的话,神经元对于输入图像的激活机制具有高度的稀疏性。其实,我们很容易体验我们的视觉系统对图像感知的稀疏性,给定一幅人脸图像,加以很强的噪音污染或者将其缩小,我们还是能够轻而易举地将其识别出来。这说明,我们不需要感知图像中所有的像素,只要感知其中很稀疏的一部分就足以完成识别任务了。
  5.1 稀疏表示理论
  稀疏表示理论最早源于“有效编码假说”,即视觉感知的目标就是产生一个外部输入信号的有效表示。到底怎样的表示才是有效的呢?研究人员从不同的角度来回答这一问题。一类生理机理测试方法,即观察在自然图像刺激条件下检测神经细胞的响应特性,如Vinje 和Gallant在2000年Science上发表的研究成果[137]:通过记录短尾猴V1区在开放的和模拟的自然场景下的神经细胞响应,验证了视皮层(V1区)神经细胞用稀疏编码有效表示自然场景,稀疏编码用最小冗余度传递信息。另一类是模型仿真方法,即利用自然图像的统计特性,建立模型来模拟早期视觉系统的处理机制。例如Olshausen和Field [138]提出了稀疏编码模型,通过寻找自然图像的稀疏编码表示,使稀疏编码网络学习得到类似于简单细胞感受野的结构。Hyvarinen 和Hoyer[139] 应用一个两层的稀疏编码模型来解释类似于复杂细胞感受野的存在和简单细胞的拓扑结构。
  在图像处理领域,关于图像稀疏表示的研究大体上沿着两条主线展开。其一是多尺度分析理论(单一基方法):研究者认为图像具有非平稳性和非高斯性,很难用线性算法处理,应建立适合处理边缘及纹理各层面几何结构的图像模型,因此以Ridgelet, Curvelet, Bandlet, Contourlet 变换为代表的多尺度几何分析方法[140-143]成为图像稀疏表示的有效途径;其二是过完备库分解理论(多基方法):Mallat和Zhang首先提出信号在过完备库(over-complete dictionary)上分解的思想[144],该分解能够根据信号本身的特点自适应选取表示基,故能够实现信号更为稀疏的表示。该思想被后来的研究者不断的丰富和发展[145],催生了一系列基于稀疏表示的图像分解方法,其中值得一提的是Starck等提出的一种将图像分解为几何结构、纹理和噪声的形态分量框架[146-147],该框架假设图像的几何结构和纹理分量在特定的基底或过完备库上是类内稀疏的,而用于各形态分量表示的基底或过完备库之间具有互不相关性,从而通过结构分量和纹理分量的分类稀疏表示来实现图像形态分量的有效分离。
  5.2 压缩感知理论
  在信息论和信号处理领域,压缩感知理论最近悄然兴起并日渐升温。压缩感知(compressed sensing),也称为压缩采样(compressive sampling)或稀疏采样(sparse sampling),是利用信号本身的稀疏性先验信息建立起来的一套用于信号获取和重建的理论和方法。斯坦福大学的D. Donoho教授, 加州理工学院的E. Candes教授, 和加州大学的华裔数学奇才T. Tao教授等在该方面做出了重要的奠基性工作[8-10]。
  稀疏性思想方法已经“润物细无声”地渗透到模式识别领域。最近,K. Labusch 等[148]报道了一个令人振奋的结果:基于稀疏编码(Sparse coding)的方法在大规模的MNIST标准字符库上的识别率优于经典的Gabor变换方法。该结果表明稀疏编码的理论方法可能会在模式识别中找到广阔的用武之地。另外,基于Curvelet, Contourlet变换的方法被应用于人脸识别,并取得了令人鼓舞的试验结果[149]。
  5.3 Kernel学习理论的稀疏表示
  稀疏性概念在Kernel学习理论中时常出现。该学习理论中,稀疏性的含义是解的“表示系数”的稀疏性,“表示系数”的稀疏性直接决定了Kernel学习机器的计算复杂度。对支持向量机而言,其分界面是由少数支持向量确定的,也就是其法向量的表示系数是稀疏的,其稀疏性程度决定了支持向量机的分类速度。为了提高支持向量机的速度,研究者提出了具有更稀疏性解的学习机器,如M. Tipping 提出的 Relevance Vector Machine [150].随后的研究探讨了在表示系数空间内采用l1-范数代替l2-范数,建立了稀疏的KPCA[151]和稀疏的KFD模型[74]并给出了具有稀疏表示系数的解。
  Kernel学习理论的稀疏表示是指解的表示系数的稀疏性,对降低特征抽取和分类过程中的计算量是有意义的,但无法刻画图像模式内部(Intra-pattern)的稀疏性。针对如何抽取模式内部真正有意义的“稀疏”特征, Zhou等[152]提出了稀疏主分量分析(Sparse principle component analysis, SPCA)方法,该方法首先将PCA刻画成为一个回归最优化问题,然后加上一个关于回归系数的l1-范数约束,求出的一组回归系数(即PCA的投影向量)具有稀疏性,即投影向量的大部分元素为零。随后,d'Aspremont等[153]和Moghaddam等[154]分别建立了基于势(cardinality)约束的SPCA模型并给出了不同的求解算法。Moghaddam等进一步将他们的SPCA模型推广为基于势约束的鉴别分析模型并提出了稀疏鉴别分析(Sparse linear discriminant analysis, SLDA)方法[155]。K. Huang和Aviyente [156]认为基于信号重建的方法鉴别能力相对较弱,但对噪声等污染不敏感;相反,基于鉴别性的方法鉴别能力强,但对抗噪声等污染的能力差,故提出一种融合基于稀疏表示的信号重建和鉴别分析为一体的方法,试验结果表明该方法即有较好的鉴别能力又有较强的抗污染能力。最近,Cai等提出了一种将源于流形学习的LPP稀疏化的技术:稀疏子空间方法[157],并在人脸识别的试验中证实了该方法的有效性。
  5.4 图像模式的稀疏性
  图像模式的稀疏性不仅体现在模式内部,也体现在模式之间。模式内部(Intra-pattern)的稀疏性刻画为特征抽取提供了依据,模式之间(Inter-pattern)的稀疏性则为分类器的设计提供了可能。最近, Wright等[158]利用模式间的稀疏性设计出一种基于稀疏表示分类(Sparse representation-based classification)方法,其基本思想是,一个待识别的图像样本,在各类训练样本总体构成的基底上的表示系数(表示系数通过求解一个通用的稀疏表示模型得到)是稀疏的,也就是说,表示系数大部分为零,不为零的部分应为在同类样本上的表示系数。该方法在稀疏表示与模式分类之间建立了一座桥梁,为稀疏表示理论在模式识别的应用树立了一个良好的开端。
  6.研究趋势
  模式特征抽取任务是将高维观察空间的样本映射到一个低维的特征空间内,使得在该空间内,模式类之间的可分离性在某种准则意义下得到最佳的保持或增强。最常用的准则是Fisher鉴别准则,该准则简单而易于优化,但在理论上有相当的局限性。从理论上揭示各种准则之间的内在关系,将Fisher鉴别分析的理论体系加以拓广,建立面向高维数据分析的广义鉴别分析的理论和算法具有重要的理论意义。
  在模式识别理论中,特征抽取的一般原则是所抽取的特征之间的统计相关性越小越好,最好是抽取统计不相关的特征或统计相互独立的特征。近年来,独立分量分析(Independent Component Analysis, ICA),受到人们的普遍关注,成为信号处理、机器学习和模式识别等领域的研究热点。由于独立分量分析方法不仅涉及到变量间的二阶相关性还涉及到变量间的高阶相关性,故独立分量分析可视为主分量分析的一种推广。增强独立分量的鉴别能力是模式特征抽取研究的一个可行方向。
  随着数据采集技术的不断提高(如提高图像采集的分辨率),原始数据已逐渐呈现纵向的高维性和横向的多重性的态势。数据纵向的高维性直接导致了小样本问题的产生,即在这些问题中,数据的维数大大超过训练样本的个数。数据横向的多重性造成了样本表示的复合性,即对于同一样本,通过多传感器可获得多组特征集,如何有效的融合多组特征而获得最佳的识别效果,是一个亟待解决的问题。
  已有流形学习方法主要侧重于研究数据的分布及如何更好地描述数据,以应用于维数约减、数据可视化方面,但与模式分类的关系不够紧密。如何更有效地将流形学习与模式分类相结合是一个值得研讨的方向。
  目前,稀疏性理论和方法研究大多集中在生理和视觉科学、信息论、信号处理、图像处理等领域,稀疏性和模式识别相结合的研究较少,还处在起步阶段,基于稀疏性的特征抽取和模式分类无论在理论上还是在算法上,都有待于发展和完善。此外,提取基于稀疏性的、符合人类视觉感知特性的鉴别特征(如图像原始要素特征、表征特征、二维基素图[161])等具有重要意义。这种稀疏鉴别特征可以用来直接从二维图像中提取具有感知、描述、理解和鉴别该图像数据库的能力,其研究成果对探索人类的认知过程与进一步了解人类认知图像对象的本质具有十分重要的理论意义。
  特征选择(Feature Selection)是从已有特征集合中筛选出一个最优特征子集,其过程一般与分类器交互。与特征选择不同,特征抽取的过程一般与分类器没有交互。最近,Yang提出了由分类器到鉴别器的概念[162],由分类器驱动的模式特征抽取方法研究是一个新的研究方向。
  7.结语
  本文首先简要回顾模式特征抽取的经典方法,然后介绍近年来在主分量分析、非线性鉴别分析、流形学习、基于稀疏表示的图像特征抽取等方面的理论和方法研究的主要进展,最后分析了模式特征抽取研究趋势。由于篇幅限制,对模式特征抽取的其它一些重要研究方向(包括独立分量分析、典型相关分析、半监督学习等)没有展开讨论。
分享到:
评论

相关推荐

    模式特征抽取的研究进展

    模式抽取国内顶尖大师杨静宇老师的最新力作。

    大数据处理及其研究进展

    大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。主要完成对已接收数据的辨析、抽取、清洗等操作。(1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以...

    视频人脸识别进展综述(发表自计算机科学)

    人脸识别是生物特征识别领域的一项关键技术,长期...相较于基于图像的人脸识别任务来说,视频数据中的人脸变化模式更为多样且视频帧之间存在较大差异,如何从冗长而复杂的视频中抽取到人脸的关键特征成为当前的研究重点。

    模式分类与识别的新动向* (1993年)

    综述了模式分类与识别中的特征抽取与选择、模式分类与识别的传统方法及其研究状况,同时也简介了模式识别中并行处理方法的进展。在模式识别研究中多信息源、多媒体、智能化策略的综合研究将是这一领域的新动向。

    数据挖掘在各行业的应用论文

    用户访问模式数据挖掘的模型与算法研究.caj 数据仓库的建设与数据挖掘技术浅析.caj 分类特征规则的数据挖掘技术.caj 数据挖掘技术的主要方法及其发展方向.caj OLAP和数据挖掘技术在Web日志上的应用.caj 数据挖掘技术...

    数据挖掘论文合集-242篇(part1)

    InternetWeb数据挖掘研究现状及最新进展.caj Internet数据挖掘原理及实现.caj Min-Max模糊神经网络的应用研究.pdf OLAP与数据挖掘一体化模型的分析与讨论.caj OLAP和数据挖掘技术在Web日志上的应用.caj ON-LINE ...

    数据挖掘论文合集-242篇(part2)

    InternetWeb数据挖掘研究现状及最新进展.caj Internet数据挖掘原理及实现.caj Min-Max模糊神经网络的应用研究.pdf OLAP与数据挖掘一体化模型的分析与讨论.caj OLAP和数据挖掘技术在Web日志上的应用.caj ON-LINE ...

    数据挖掘论文合集-242篇(part3)

    InternetWeb数据挖掘研究现状及最新进展.caj Internet数据挖掘原理及实现.caj Min-Max模糊神经网络的应用研究.pdf OLAP与数据挖掘一体化模型的分析与讨论.caj OLAP和数据挖掘技术在Web日志上的应用.caj ON-LINE ...

    数据之舞:大数据与数据挖掘.doc

    那次突破性的进展之后,数以千计人类、灵长类、老鼠和细菌的基 因组扩充着人们所掌握的数据。每个基因组上有几十亿个"字母",计算时出现纰漏的危 险,催生了生物信息学。这一学科借助软件、硬件以及复杂算法之力,...

    数据分析入门.pptx

    定义 数据分析是指用适当的统计分析方法,对收集来的大量数据进行分析,提取有用信息和形成结论,而对数据加以详细研究和概括总结的过程。 数据分析入门全文共23页,当前为第4页。 探索性数据分析侧重于在数据中...

    软件工程-理论与实践(许家珆)习题答案

     软件特征:开发技术有很大进步,但未获得突破性进展,软件价格不断上升,未完全摆脱软件危机。 3. 什么是软件危机?其产生的原因是什么? 答:“软件危机”(Software Crisis)的出现是由于软件的规模越来越大,...

Global site tag (gtag.js) - Google Analytics