1. 研究目的与意义(文献综述)
1.1 研究目的及意义
图像是信息的重要载体,是人类获取信息,表达信息和传递信息的重要手段。研究表明,人类获取外界信息有听觉,视觉,触觉,嗅觉和味觉等方法。在人类获取的信息中,20%的信息来自于听觉,60%的信息来自于视觉,而剩下的20%则来自于触觉,嗅觉和味觉等方法。所以,作为传递信息的重要手段——图像信息则显得尤为重要,俗话说“百闻不如一见”、“一目了然”都反映了图像信息在信息传递中的重要性。
近年来,随着现在科技的高速发展,图像已经充斥于人类生活的方方面面。相比于文本信息,图片所含有的信息量更大,对信息的描述更加生动和直观。我们正在走入一个图像世界,正如海德格尔所说的那样,一个“图像时代”正在来临。
然而,这样的一个“图像时代”却造成了一个尴尬的局面:一方面,大量的图像信息涵盖了人们所需要的所有信息;另一方面,人们却无法在这大量的信息之中找到自己所需要的准确的图片信息。所以这就迫切地需要人们发展科学技术以快速地对海量的图像信息进行分析,从而快速地找到自己所需要的有价值的信息。
实现这个方法早期使用的是多类别的图像分类的方法,人们首先通过观察图片的特点并用相关的文字进行标注,作为图片的关键词,然后再用文本信息管理技术对图片的关键词进行自动组织和检索。这个方法看起来可行,但是随着图片信息指数型增长的今天来说却是不可行的。据统计,2014年全球的照片就超过了8000亿张,如此庞大的数量使得多类别的图像分类的工作量增加,效率低下,甚至寸步难行。其次,不同的人的教育水平、语言背景、生活环境、对图片的理解也大不相同,这就对图片的标注的关键词产生了影响,使得关键词出现歧义,甚至使得图片的主题丢失。多类别的图像分类方法的缺陷使得人们需要寻求一个更好的方式。
为解决多类别的图像分类方法的缺陷,在20世纪70年代产生了图片检索的技术,这种技术在20世纪90年代发展成为了基于内容的图片检索(Content-based Image Retrieval,CBIR)的技术,CBIR直接根据图像底层视觉特征进行相关检索,用户输入一张图片,系统通过提取图片的底层视觉特征与数据库中的图像进行相似性比较,根据相似度排序返回搜索结果。省去了的人工标注过程,真正实现了图片的自动化管理。但是在实际操作中CBIR不管在应用上还是技术上都还有一定的缺陷。
为了克服不断出现的问题,图像分类技术(Content-based Image Classification,CBIC)应运而生。图像分类方法应用了图像的底层特征来表达图像的内容和信息,采用了图像底层特征相似性匹配的方法实现对图像的分类管理,是一种有效的图像管理组织方式。
近年来,计算机视觉成为最热的应用研究,计算机视觉简单来说就是研究如何使用计算机来模拟生物视觉,它的主要任务是计算机通过对采集的图片或视频进行处理,能像人类那样通过视觉观察世界,具有自主识别、理解和适应环境的能力。而图像分类技术正是解决上述研究问题的核心内容,被应用到计算机视觉领域的方方面面。如:自主车辆的视觉导航,它就是以图片的分类识别环境为基础;航空和卫星照片的读取判别与分类;工业机器人手眼系统的特定目标识别;生物特征的鉴别等。
1.2 国内外研究现状
现在的图像分类技术已经应用到人类生活中的方方面面:互联网图像信息检索、家庭图像处理、医学图像处理、遥感图像的分类技术和图像检测等,这让我们的生活更加丰富多彩。
早期的图像分类研究算法是提取图像的底层全局特征(如颜色、纹理、形状等),并结合一些其他算法对图像进行分类。如小波变换等方法对图像进行压缩,直接把压缩后的图像作为分类器的输入进行分类。这种基于全局特征的算法约束了图像的整体形状,灵活性很差,具有一定的局限性。而且这样的算法算出来的图像特征的维数很高,会使计算变得非常复杂。
近年来,国内外对于建立在局部特征之上的图像分类算法的研究越来越多。利用局部特征对图像进行分类分析时,先把每幅图像分割成很多独立的区域,每一个区域对应一个特征向量,这些特征具有尺度不变性、旋转不变性、灰度不变性等不变性,为图像分类技术提供一种统计意义的图像内容表述,相比于早期的基于全局特征的图像分析技术来说有很大的优势。除此之外,基于局部特征的图像分类技术还可以对一些不完整目标或者被遮挡的目标图像来说也能保持识别的准确率和效率。
词袋模型(Bag-of-Words Model)最早应用在自然语言处理领域,根据词典统计文本中不同单词的出现频率,然后将文本表示为单词出现次数的向量,而不考虑这些词在文本中出现的位置关系等信息。之后,计算机视觉领域的研究者们成功地将该模型的思想移植到图像分类领域,将图像表示为图像特征出现频率的向量。因为图像特征通常维度比较高,因此需要预先进行量化处理。BoW模型由于其简单高效的特点在图像分类领域取得了非常不错的效果,从而被广泛应用。
BoW模型可以利用图像来类比文档,将图像中的局部特征类类比为文档中的单词,结合分类器就可以将该模型应用到图像分类中并取得较好的效果,文档和图像在BoW模型下的对应关系如下表所示。
文本 | 文集 (Corpus) | 文件 (Document) | 单词 (word) | 字典 (Vocabulary) | 类别决策 (Category label) |
图像 | 图像集 (Image set) | 图像 (Image) | 视觉单词 (Visual Word) | 视觉词典 (Visual Vocabulary) | 类别决策 (Category label) |
2. 研究的基本内容与方案
本文将研究用bow模型来完成对图像的分类方法。bow模型的图像表达技术中,通常包含3个部分:(1)特征提取;(2)视觉词典构造;(3)分类器的训练。特征提取主要是从给定图像中提取全局或局部不变特征,得到图像的表示。视觉词典的构造主要是对提取的图像特征进行聚类,将聚类中也作为视觉单词,所有聚类中也的集合即为构造的视觉词典。分类器的训练是针对于要进行的图像分类任务而进行的操作,结合训练的分类器即可进行图像的分类与识别。
针对特征提取环节,比较经典的方法是使用尺度无关特征变换(scale-invariant feature transform,sift)。该特征描述子通过在尺度空间进行稳定特征点的检测,能够在一定程度上抵抗光照、视角、尺度以及仿射变换的影响。
得到所需特征之后,下一步即是对这些特征进行处理,生成视觉词典。比较常用的典型方法为k -means聚类算法,该方法将训练图像库的大量特征按照相似性进行聚类,一般采用欧几里德距离作为度量标准,属于非监督型聚类方式。通过聚类过程,使划分到一个类别里的特征具有最大的相似性,而相比于其它类别的特征而言具有最大的区分性。这样就可以定义每一个聚类中心即为所需要的单词,聚类的个数即为视觉单词库的大小。
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。
第6-9周:编程实现各算法,并进行仿真调试。
4. 参考文献(12篇以上)
1、冈萨雷斯rc.数字图像处理.阮宇智译(第二版) .北京:电子工业出版社,2003
2、陈桂明,张明照,戚红雨. 应用matlab语言处理数字信号与数字图像. 科学出版社,2000
3、景晓军等编著.图像处理技术及其应用.北京:国防工业出版社,2005
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。