文献综述(或调研报告):
随着计算机计算能力的提升及更多先进算法的提出,机器人视觉检测能力也在不断进步,目前,主流的机器人视觉算法主要有两大类:传统模式识别与神经网络算法。
传统的模式识别在进行检测时主要是使用统计模式识别,其基本原理是:有相似性的样本在模式空间中互相接近,并形成聚类,将其分为若干类,然后根据模式之间的距离函数来判别分类。而分类的判断器,目前最常用的就是SVM(支持向量机)。例如文献[1],基于HOG(方向梯度直方图)特征输入到SVM中进行人体目标的检测。而文献[2]则对图像的多种特征,包括灰度特征图、掩模图、图像高光谱信息在0°、45°、90°方向上的灰色共生矩阵等信息进行提取,然后输入到SVM或ELM(极限学习机)中,从而实现对马铃薯状态的判断。文献[3]通过提取交通标志的HOG信息,然后用PCA(主成分分析)技术降低信息量,然后输入到SVM和PNN(概率神经网络)分类器中,从而实现对特征向量的判断以达到对于交通图标的识别。文献[4]则是提取了包含卵泡和不包含卵泡的图像的HOG特征,再计算了角度取0°、45°、90°、135°的灰度共生矩阵,提取其对比度、相关度、熵等特征,此外还有改良后的LBP特征、PCA特征,决策器选择了带有PSO(粒子群算法)优化的SVM和AdaBoost(自适应增强算法)的决策树强化分类器,并展示了其实验结果,并在实验中加入了多种参考标准以便优化。文献[5]专注于视频的动态火焰追踪,对比了不同动态追踪效果,并使用颜色空间法实现对火焰的判别,然后对不同的优化型SVM进行对比,包括PSO-SVM(粒子群优化支持向量机算法)、FOA-SVM(果蝇优化支持向量机算法)及其优化版TSPSO-SVM(双子群粒子群优化支持向量机算法),IMFOA-SVM(修正果蝇优化支持向量机算法)。文献[6]则是利用图像检测进行稻田白背飞虱的自动检测,其创新点在于它的检测器有三层,第一层使用基于HOG特征的决策树分类器,第二层使用LBP(局部二值模式)特征的SVM分类器,第三层使用基于HOG特征的SVM分类器,并展示了三层探测器在应对复杂环境中的检测效果。
而神经网络算法,由于图像检测中巨大的数据处理量和图像相邻位置的像素点相关度更高,基于CNN(卷积神经网络)的图像识别逐渐成为热门,并逐渐开始受到广泛应用。文献[7]较为详细地介绍了CNN的兴起过程、结构原理和优势,然后介绍了PCA用于数据压缩,还介绍了C 中用来进行CNN的库EBlearn,然后以门牌号数字识别为例,展示了CNN的构建、训练与测试过程,展示了CNN的工作流程。文献[8]则较为创新地将Auto Encoder与CNN结合,使用Auto Encoder初始化CNN卷积核,提高了其准确率。文献[9]先是详细介绍了CNN各层的作用,包括卷积层、池化层、全连接层、学习率及激活函数等,然后对样本集的交通标志进行HOG特征提取和级联,并构建了一个输出为bool量(判断是否为交通标志)的网络,称为BCNN(布尔型卷积神经网络),然后检验其精确度。文献[10]思路也是一样,它使用感病或有虫害的大豆植株叶片图片作为对照,将其作为输入放进CNN网络中进行训练,并将结果与提取HOG特征输入到KNN(K最邻分类算法)及SVM的分类器得到的准确率进行对比,体现了CNN的优越性。文献[11]则将CNN用于肝肿块和肝癌的检测,并展示了CNN在对于此类问题的分类中的优秀表现。文献[12]则是通过深度学习,实现了对于无线电的频谱监测。文献[13]主要研究的是对人脸表情的判定,其中主要选取的是眼睛、眉毛、嘴巴三处作为检测对象,对人的七种不同的表情进行分类训练,并使用CNN对待检测图像三个检测对象相对于七种情绪的隶属度,将其作为输入向量输入SVM中进行判断,在CK (拓展型Cohn-Kanade 数据集)和JAFFE上的测试结准确度均超过90%。文献[14]则在传统CNN的基础上加以创新,解决了CNN处理二维图像难以应对高光谱图像,易造成过拟合问题,将卷积层换为三维卷积层,从而得到了3D-CNN,并借此进行高光谱图像的分类。文献[15]也是研究3D问题的,其提出了一种使用混合卷积神经网络进行三维形状检索的方法。而对于CNN卷积的另一种创新在于拓展卷积核的长宽,文献[16]介绍了使用5*5卷积核在边缘检测中的特殊效果,并与传统的三维卷积核进行对比。文献[17]则根据CNN,利用深度学习模型,对文本的情感类型进行建模,并划归了训练集和测试集,调用IMDB(互联网电影资料库)等数据集,通过CNN、SVM等多种模式进行文本情感的判定,并对照了不同的深度学习算法的效果。文献[18]则专注于更基础的研究,关注于票据上手写汉字关于公司名的识别,并结合一定的传统模式识别,开发了一套可以识别相关文字的操作流程。文献[19]则介绍了一种使用多任务混合卷积神经网络在人脸识别中的应用。
但是,CNN的判定逻辑只是判断一张图片是什么,在很多时候我们还需要知道特定物品在图像中的位置,这就是目标检测问题,目标检测问题的最基本方法就是RCNN(区域卷积神经网络算法),当然,随着时间的发展,RCNN也在不断发展,也有很多新的思路提出。首先就是为了提高RCNN的运行速度提出的FAST RCNN算法和Faster RCNN算法,例如文献[20],使用Faster RCNN,并加以改进,达到定位图中多种车辆的效果,而文献[21]介绍了RCNN的基本思想,并探讨了训练集数目对于训练效果的影响。此外,还有Mask RCNN算法,与Fast RCNN算法有一定的相似性,关于Mask RCNN算法的使用可以参见文献[22],其中介绍了Mask RCNN算法的相关原理,并借此研究了对于图片中行人定位的问题,还进行对照,探究了参数对于算法效果的影响。但是其实Faster RCNN等算法要先进行边框训练,相对耗时还是比较长,有一种新的思路,就是YOLO(You Only Look Once),对图像的每个位置只检测一次,可以一步实现目标的检测与分类。文献[23]就是用这种方式,使用YOLO网络架构实现行人的位置检测。而文献[24]更加体现了YOLO处理速度快的优势,将其应用于视频检测中,测试动态视频中对于车辆的追踪检测效果,并与Faster RCNN及CNN对比,表明了YOLO的快速性优势。文献[25]则更加注意实际应用,使用YOLO算法定位苹果位置,展示了YOLO的优势性,此外还对比了Faster RCNN、YOLOv2、YOLOv3及传统模式识别HOG SVM的定位效果,证明了YOLO在复杂环境、多目标检测中更具优势。
而对于锁孔检测问题,目前已提出的锁孔检测算法不是很多,主要是针对集装箱锁孔的检测算法(见文献[26-28]),其中文献[26]较为完整地提出了基于机器视觉来实现锁孔检测的研究方法,可以说涵盖了已知的比较主流的机器人视觉检测算法,如基于HOG SVM,首先滑窗提取局部图像,利用HOG提取实验组与对照组的数字特征并输入到SVM中进行判断训练等偏传统模式识别检测算法,或者完全基于Alexnet的衍生算法,如RCNN或YOLO的集装箱锁孔检测算法,并评定了它们各自的优缺点及其检测精度的诸多影响因素。文献[27]则较为直接,先基于HSV(色调-饱和度-明度颜色空间)空间中的H通道,利用集装箱与外界环境H通道差别较大的特点提取出集装箱边框,再利用霍夫变换与锁孔实际尺寸约束,快速识别定位锁孔。而文献[28]则研究的是基于HOG SVM的算法思路,针对视频中对每帧图像进行集装箱锁孔检测的效果进行了测试,并对比了BOOSTING、MIL(多事件学习算法)、KCF(核相关滤波算法)、TLD(跟踪学习检测算法)等目标追踪算法的效果,对于设计可以实时检测定位锁孔的机器人有参考意义。文献[29]则是从软硬件角度介绍了一种可以检测汽车门锁的算法,并展示了其测量效果。
本次毕业设计研究的问题主要是锁孔的识别与定位算法,但是这一算法本质上是为了后面让机器人能实现开锁的必要准备,要对完成开锁任务的机械臂的进行控制首先要依赖于机器人视觉提供的位置信息。而实际上,基于机器人视觉对于机械臂进行相关的控制也是近些年来的热门研究项目。以文献[30]为例,它使用比较传统的HOG SVM的方式提取图像特征,以此作为基础,控制机械臂的运动,从而使机械臂可以自主添加中间包覆盖剂。文献[31]类似,通过图像识别定位螺孔,并检测螺孔的锁付状态,然后进行轨迹规划等,虽然没有再使用之前提到的HOG特征检测等,但也是与之前的思路相似,不过相对之前的文献而言软件更专业,算法更精确。文献[32]则是对于机器人视觉的各种算法进行了一定的阐述和介绍,研究了对自动驾驶而言相关的算法有效性评判指标。
而后关于开门问题的具体研究,文献[33]先论述了在开门问题中机器人视觉的作用及关于门的相关参数的提取,文献[34-35]则是针对机械臂开门问题建立了动力学模型,并通过实验证明了其有效性,文献[36]则主要研究了机器人视觉与末端执行器在开门问题中的设计,在图像识别中主要还是提取HOG特征进行锁孔和外圆识别,然后设计了能够插入锁孔的末端执行器。文献[37]使用Adams对交通模型的车门系统进行建模,从而分析了开门任务的具体模型,并对其会受到哪些因素影响进行了仿真测试。文献[38]则较为综合,基本上囊括了之前关于开门问题的研究,提出了一种在不确定性环境下能够实现自适应开门的算法,从数学上证明了其有效性,且用实际机械臂测试了它在对于旋转门和推拉门开门问题上的有效性并分析了它的抗扰性能等指标。
参考文献
[1] 胡振邦. 基于Latent SVM的人体目标检测与跟踪方法研究[D]. 中国地质大学, 2013.
以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。