背景:
随着信息社会的进一步发展,人类日常生活中的交流越来越频繁,通过手机,平板电脑等越发普及的媒介进行的交流也越加广泛,数字图像成为了主要的交流方式,随之也产生了大量需要识别的包含在自然场景中的中文文本的图像数据。
包含在自然场景中的中文文本在日常生活中十分常见,例如在道路上的交通标志,街道上的店铺名,以及随处可见的各种宣传标语等。使用计算机识别出这些文本有着非常重要的意义,例如基于内容的图片搜索,办公文档的自动处理,基于手机拍照的实时翻译,地图中建筑信息的自动标注,机器人对场景的感知和理解以及汽车的自动驾驶等。
与传统的文档类别照片不同,利用计算机技术定位和读取自然场景中的文本
信息是十分复杂和困难的任务。其难度和挑战主要体现在以下三个方面:
(1)自然场景文本的多变性
将自然场景文本和传统的文档图片中文本相比,文档图片中的文本通常具有相对统一的字体形态、单一的字体颜色、一致的文本大小和统一的排版排列。而自然场景中的文本没有非常明显的规律可循,文本信息可能会在图像中的任何一个位置出现,也可能具有完全不同的字体、颜色、大小和排列方向,即使它们是在同一张图片中。这就给文本的检测和识别增加了诸多的不确定因素。
(2)背景的复杂性
普通的文档图片往往背景单一,一般以白色为主,字体为黑色,具有非常明显的对比性,非常容易和背景区分开来。而自然场景图片的背景十分复杂,像一些交通标志,栏杆,墙砖和花草几乎很难和真正的文本区分开来,因此很容易造成混淆和错误的判别。
(3)内容的干扰性
自然场景图片中存在各种各样的干扰因素,由于图像的拍摄角度不同,会引起文本存在不同程度的几何和透视形变。像图像噪声、图像模糊、画面扭曲、低分辨率、复杂的光照以及一部分的文本遮挡等因素,都会给自然场景的文本检测和识别提升难度。
国内外研究现状:
近几年越来越多的国内外学者已经认识到了自然场景中的文本包含着的复杂且有价值的信息,对许多基于视觉的应用软件所发挥出的重要作用,并且投入到了该领域的研究中来,目前自然场景中文本识别已经成为了在计算机视觉,模式识别和文档分析领域十分钟重要的课题。最近研究人员在这个领域的研究中已经取得了很大的进步,提出了许多有效的方法来识别自然场景中文本包含的信息。
为了解决将传统的文本识别方法直接应用于自然场景中所产生的一些问题,Sawaki等人在文献[1]中提出一种解决办法,该方法可以自动地根据自然场景图像的特性来产生字符模板。文献[2]中,作者使用表面适应分类器和特殊设计的字符识别算法,来识别因特网图像中的文本(包括简单的合成图像和自然场景图像)。但是,这些算法都无法应用在复杂的自然场景图中,这些方法的适应性没有经过验证。
在文献[3]中,作者测试、比较、分析了计算机视觉和模式识别领域内现有的特征描述子和分类器算法。和主流的文本识别算法不同,作者提出的方法是对单个字符进行识别,而不是以词汇为单位的识别。
以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。