单图超分辨率(SISR)文献综述 摘要:单图超分辨率是一个著名的不适定问题,要求输入图像的低分辨率版本,获得其高分辨率输出。深度学习算法面世后,很快被应用于该问题并表现极佳。本综述回顾了若干种代表性的SISR解决算法。 关键字:单图超分辨率、深度学习、神经网络、目标函数
深度学习[1]是机器学习的一个分支,是一个旨在学习数据分层的算法。在许多人工智能领域,深度学习已经显示出优于其他机器学习算法的显著优势,例如计算机视觉[2],语音识别[3],和自然语言处理[4]。一般来说,深度学习处理大量非结构化数据的强大能力主要归功于两个原因:高效计算硬件的发展和复杂算法的进步。 单图超分辨率是计算机视觉的一个经典应用,旨在从输入的单张低分辨率图像重建出相应的高分辨率图像。同时,将低分辨率输入映射到的高分辨率空间(在大多数情况下,它指的是自然图像空间)通常是难以处理的。以往SISR的方法主要有两个缺点:一是在低分辨率空间和高分辨率空间之间建立映射的定义不明确,另一个是在给定大量原始数据的情况下,建立复杂的高维映射效率低下。得益于提取联系低分辨率空间和高分辨率空间的高维抽象化的强大能力,最近基于深度学习的SISR方法在数量和质量上都取得了显著的改进。
超分辨率是指通过软件或硬件的方法,从输入的低分辨率图像重建出相应的高分辨率图像,在监控设备、卫星图像遥感、数字高清、显微成像、视频编码通信、视频复原和医学影像等领域都有重要的应用价值。超分辨率分为单图超分辨率(single image super resolution,SISR)和多帧超分辨率两种(或称多图超分辨率,multi-image super resolution, MIMR)。SISR只参考当前低分辨率图像,不依赖其他相关图像,而MIMR参考多幅图像或多个视频帧。一般来讲MIMR有更多的可参考信息,结果也往往质量更高,但是其更高的计算复杂度也限制了其应用。本文主要介绍SISR。 在典型的SISR框架中,如图1所示,低分辨率图像y建模如下: y = (xotimes;k)darr;s n, (1)
图 1 SISR的总体结构 其中x k是模糊核k和未知HR图像x之间的卷积,darr;s是具有比例因子s的下采样算子,n是独立噪声项。(1)是一个极不适定的问题,因为一个低分辨率输入可能对应于许多可能的高分辨率解果。迄今为止,SISR的主流算法主要分为三类:基于插值的方法、基于重建的方法和基于学习的方法。 基于插值的SISR方法,例如双三次插值[5]和Lanczos重采样[6],非常快速和直接,但存在精度缺陷。基于重建的超分辨率方法[7]、[8]通常采用复杂的先验知识来限制可能的解决空间,其优点是细节灵活而清晰。然而,当比例因子增加时,许多基于重建的方法的性能迅速下降。并且,这些方法通常很耗时。 基于学习的SISR方法,也称为基于实例的方法,因其计算速度快和性能突出而备受关注。这些方法通常利用机器学习算法,从大量训练实例中分析低分辨率图像与其对应的高分辨率图像之间的统计关系。Freeman等人首先采用马尔可夫随机场(Markov Random Field, MRF) [9]方法,利用丰富的真实图像合成高质量的图像纹理。Chang等人提出的邻域嵌入方法(Neighbor embed-ding methods)[10]利用相似的局部几何结构来恢复高分辨率图像块。受稀疏信号恢复理论[11]的启发,研究人员在SISR问题上应用了稀疏编码方法[11]、[12]。最近,随机森林[13]也被用于改善重建性能。与此同时,许多工作将基于重建的方法和基于学习的方法的优点结合起来,以进一步减少由外部训练例子引入的伪像,如[14][15]。最近,基于深度学习的SISR算法已经显示出比基于重建和其他基于学习的方法更大的优势。 B.深度学习 深度学习是机器学习算法的一个分支,它基于直接学习数据的各种表示形式。与使用专业知识对手工分类过的特点进行学习的传统任务特定学习算法不同,深度学习算法旨在自动学习信息分层表示,然后利用它们来实现最终目的,即整个学习过程可以被看作是一个整体。 由于人工神经网络的高逼近能力和层次性,大多数现代的深度学习模型都是基于人工神经网络。早期人工神经网络可以追溯到20世纪60年代的感知器算法。在20世纪80年代,多层感知器可以用反向传播算法训练。两个传统神经网络的代表性衍生物——卷积神经网络(CNN)和递归神经网络(RNN),分别被引入计算机视觉和语音识别领域。尽管人工神经网络在此期间取得了显著进展,但仍有许多不足妨碍人工神经网络进一步发展。此后,辛顿在2006年提出用受限玻尔兹曼机(RBM)对深层神经网络(DNN)进行预处理,这标志着现代神经网络的重生。最终,得益于计算能力的繁荣和先进算法的发展,基于DNN的模型在各种监督模型任务中都有很好的表现。与此同时,基于DNN的无监督算法,如深度玻尔兹曼机器(DBM)自动编码器(VAE)和生成对抗网由于具有处理未标记数据的潜力而引起了广泛关注。
在本节中,我们选择SRCNN架构作为基准。SRCNN的整体架构如图2所示。正如在许多传统方法中所建立的那样,为了简单起见,SRCNN仅实现用于训练的亮度分量。SRCNN是一种三层CNN,每层的滤波器尺寸分别为64 times; 1 times; 9 times; 9、32 times; 64 times; 5 times; 5和1 times; 32 times; 5 times; 5。这三种非线性变换的功能是面片提取、非线性映射和重构。优化信噪比的损失函数是均方误差。
图 2 SRCNN的结构示意图 SRCNN公式相对简单,可以设想为普通CNN以端到端的方式近似低分辨率和高分辨率空间之间的复杂映射。SRCNN比并行的传统方法显示出巨大的优越性,这归功于CNN以端到端的方式从大数据中学习有效表示的强大能力。 四、当下最先进的深层SISR网络
图 3 FSRCNN的反卷积层示意图 虽然正常的反卷积层已经被广泛应用于诸如Caffe和TensorFlow等开源软件包中,它为第一个问题提供了一个相当好的解决方案,但是仍然存在一个潜在的问题:当我们使用最近邻插值时,上采样特征中的点会在每个方向重复几次。上采样像素的这种配置是多余的。为了避免这个问题,施等人在[17]中提出了一种高效的子像素卷积层,称为ESPCN(Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network),其结构如图4所示。与反卷积层那样通过显式放大特征映射来提高分辨率不同,ESPCN扩展了输出特征的通道,用于存储额外的点以提高分辨率,然后重新排列这些点以通过特定的映射标准获得高分辨率输出。由于扩展是在通道维度中进行的,因此较小的内核大小就足够了。[18]进一步表明,当普通但冗余的最近邻插值被零填充子像素的插值代替时,解卷积层可以简化为ESPCN中的子像素卷积。显然,与最近邻插值相比,这种插值效率更高,这也可以验证ESPCN的有效性。
图 4 ESPCN的细节示意图
除了创新的架构,VDSR还做出了两项贡献。第一个是单个模型用于多个尺度,因为具有不同尺度因子的SISR过程相互之间有很强的关系。这一事实是许多传统SISR方法的基础。与SRCNN类似,VDSR以低分辨率双三次为输入。在训练过程中,VDSR将不同比例因子的低分辨率双三次组合在一起进行训练。对于较大的比例因子(times;3,times;4),较小比例因子(times;2)的映射也可以提供信息。第二个贡献是剩余学习。与双三次版本到高分辨率的直接映射不同,VDSR使用深度CNN来学习双三次版本到双三次版本和高分辨率之间的残差映射。学者们认为残差学习可以提高性能和加速收敛。 VDSR非线性映射部分的卷积核非常相似,为了减少参数,Kim等人进一步提出了DRCN[20],其在非线性映射部分中利用相同的卷积核16次,如图5(b)所示。为了克服训练深度递归神经网络的困难,DRCN采用了多监督策略,最终结果可视为16个中间结果的融合。融合系数是可训练正标量的列表,总和为1。正如他们所展示的,DRCN和VDSR有着非常相似的表现。 在此有必要强调在DRCN进行多层次训练的重要性。这种策略不仅创建了短路径,使梯度可以在反向传播期间更平滑地流过,而且还引导所有中间表示来重构原始高分辨率输出。最后,融合所有这些原始高分辨率输出会产生一个很好的结果。然而,这种融合策略有两个缺点:a)一旦权重标量在训练过程中确定,它们就不会随着不同的输入而改变;b)使用单个标量来加权高分辨率输出没有考虑到像素差异,也就是说最好以自适应的方式区分地加权不同的部分。 像VGG网络这样简单的架构很难深入研究。基于跳跃连接的各种深度模型可能非常深,并且已经在许多任务中获得了最先进的性能。其中,He等人提出的ResNet[21]、[22]是最具代表性的模型。在[23]中,作者提出了SRResNet,它由16个剩余单元组成(一个剩余单元由两个具有剩余学习的非线性卷积组成)。在每个单元中,批量标准化(Batch Normalization, BN) [69]用于稳定训练过程。SRResNet的整体架构如图5(c)所示。基于[16]中的原始剩余单元,Tai等人提出了DRRN [24]。DRRN中基本剩余单元在递归拓扑中被重新排列以形成递归块,如图5(d)所示。为了适应参数约简,每个块共享相同的参数并递归重用,如在DRCN的单个递归卷积核中。 EDSR[25]是由Lee等人提出的,目前已经取得了最先进的性能。EDSR在总体框架上主要做了三个改进:1)与以前工作中使用的剩余单元相比,EDSR不再使用BN,如图5(e)所示。原始的带有BN的ResNet是为分类而设计的,其中内部表示是高度抽象的,并且这些表示对BN引入的偏移不敏感。像SISR这样的图像到图像任务,由于输入和输出是紧密相关的,如果网络的收敛很好,这种偏移可能会损害最终的性能。2)除了有规律的深度增加外,EDSR还大规模增加了每一层的输出特征数量。为了克服训练大ResNet的困难,采用了[26]中提出的剩余缩放技巧。3)受不同标度因子的SISR过程相互之间关系密切的启发,[25]的作者在训练times;3和times;4标度模型时,用预处理的times;2网络初始化了参数,加快了培训速度,使最终结果更好。 EDSR预处理的有效性表明,不同规模的模型可以共享许多中间表示。为了进一步研究,类似于在双三次输入条件下建立多尺度体系结构,EDSR的开发者建议MDSR实现多尺度体系结构,如图5(g)所示。在MDSR,用于非线性映射的卷积核在不同的尺度上共享,其中只有用于提取特征的前卷积核和最终子像素上采样卷积是不同的。在MDSR训练期间的每次更新中,随机选择times;2、times;3和times;4的迷你表,仅更新MDSR的相应部分。 除了ResNet之外,DenseNet [27]是另一种基于连接跳过的有效架构。在DenseNet中,每一层都与前面的所有表示相连接,瓶颈层以单位和块的形式使用,以减少参数量。ResNet支持功能重用,而DenseNet支持新的功能探索。如图5(f)所示,Tai等人提出的MemNet [28],在DenseNet的基础上,于去卷积层前,连接来自不同块的所有特征,递归地使用残差单元来代替基本密度网络块中的正常卷积,并在不同块之间增加密集连接。已经证明MemNet能有效提高性能。如图5(h)所示。作者解释说,同一块中的局部连接类似于短期记忆,而与先前块的连接类似于长期记忆。Zhang等人提出的RDN [29]使用类似的结构。在RDN块中,基本卷积单元像DenseNet中一样紧密连接,在RDN块的末端使用瓶颈层,随后在整个块中进行剩余学习。在进入重建部分之前,通过密集连接和剩余学习融合所有来自先前块的特征。
图 5 若干种SISR算法的深层结构示意图 五、总结 目前,超分辨率重建技术广泛用于多个场合,稀疏表示思想的提出对单图像超分辨率重建算法的飞速发展起到了重要作用。同时,随着单图像超分辨率重建技术的快速进步,以及高分辨率移动设备和超高清电视的发展,视频超分辨率重建技术也逐步成为研究的热点。但是,超分辨率重建技术也面临各种挑战,主要有:深层模型的加速,深层模型的更深入研究,目标函数的设计和评估标准。 |
|
参考文献 [1] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” nature, vol. 521, no. 7553, p. 436, 2015. [2] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in neural information processing systems, 2012, pp. 1097–1105. [3] G. Hinton, L. Deng, D. Yu, G. E. Dahl, A.-r. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. N. Sainath et al., “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups,” IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82–97, 2012. [4] R. Collobert and J. Weston, “A unified architecture for natural language processing: Deep neural networks with multitask learning,” in Proceedings of the 25th international conference on Machine learning. ACM, 2008, pp. 160–167. [5] R. Keys, “Cubic convolution interpolation for digital image processing,” IEEE transactions on acoustics, speech, and signal processing, vol. 29, no. 6, pp. 1153–1160, 1981. [6] C. E. Duchon, “Lanczos filtering in one and two dimensions,” Journal of applied meteorology, vol. 18, no. 8, pp. 1016–1022, 1979. [7] S. Dai, M. Han, W. Xu, Y. Wu, Y. Gong, and A. K. Katsaggelos, “Softcuts: a soft edge smoothness prior for color image super-resolution,” IEEE Transactions on Image Processing, vol. 18, no. 5, pp. 969–981, 2009. [8] J. Sun, Z. Xu, and H.-Y. Shum, “Image super-resolution using gradient profile prior,” in Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008, pp. 1–8. [9] W. T. Freeman, T. R. Jones, and E. C. Pasztor, “Example-based superresolution,” IEEE Computer graphics and Applications, vol. 22, no. 2, pp. 56–65, 2002. [10] H. Chang, D.-Y. Yeung, and Y. Xiong, “Super-resolution through neighbor embedding,” in Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, vol. 1. IEEE, 2004, pp. I–I. [11] M. Aharon, M. Elad, A. Bruckstein et al., “K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation,” IEEE Transactions on signal processing, vol. 54, no. 11, p. 4311, 2006. [12] J. Yang, J. Wright, T. S. Huang, and Y. Ma, “Image super-resolution via sparse representation,” IEEE transactions on image processing, vol. 19, no. 11, pp. 2861–2873, 2010. [13] S. Schulter, C. Leistner, and H. Bischof, “Fast and accurate image upscaling with super-resolution forests,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3791–3799. [14] K. Zhang, D. Tao, X. Gao, X. Li, and J. Li, “Coarse-to-fine learning for single-image super-resolution,” IEEE transactions on neural networks and learning systems, vol. 28, no. 5, pp. 1109–1122, 2017. [15] J. Yu, X. Gao, D. Tao, X. Li, and K. Zhang, “A unified learning framework for single image super-resolution,” IEEE Transactions on Neural networks and Learning systems, vol. 25, no. 4, pp. 780–792, 2014. [16] C. Dong, C. C. Loy, and X. Tang, “Accelerating the super-resolution convolutional neural network,” in European Conference on Computer Vision. Springer, 2016, pp. 391–407. [17] W. Shi, J. Caballero, F. Huszar, J. Totz, A. P. Aitken, R. Bishop, acute; D. Rueckert, and Z. Wang, “Real-time single image and video superresolution using an efficient sub-pixel convolutional neural network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 1874–1883. [18] W. Shi, J. Caballero, L. Theis, F. Huszar, A. Aitken, C. Ledig, and Z. Wang, “Is the deconvolution layer the same as a convolutional layer?” arXiv preprint arXiv:1609.07009, 2016 [19] J. Kim, J. Kwon Lee, and K. Mu Lee, “Accurate image super-resolution using very deep convolutional networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 1646–1654. [20] J. Kim, J. Kwon Lee, and K. Mu Lee, “Deeply-recursive convolutional network for image super-resolution,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 1637–1645. [21] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778. [22] ——, “Identity mappings in deep residual networks,” in European Conference on Computer Vision. Springer, 2016, pp. 630–645. [23] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunningham, A. Acosta, acute; A. Aitken, A. Tejani, J. Totz, Z. Wang et al., “Photo-realistic single image super-resolution using a generative adversarial network,” arXiv preprint, 2017. [24] Y. Tai, J. Yang, and X. Liu, “Image super-resolution via deep recursive residual network,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 1, no. 4, 2017. [25] B. Lim, S. Son, H. Kim, S. Nah, and K. M. Lee, “Enhanced deep residual networks for single image super-resolution,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, vol. 1, no. 2, 2017, p. 3. [26] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. A. Alemi, “Inception-v4, inception-resnet and the impact of residual connections on learning.” in AAAI, vol. 4, 2017, p. 12. [27] G. Huang, Z. Liu, K. Q. Weinberger, and L. van der Maaten, “Densely connected convolutional networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, vol. 1, no. 2, 2017, p. 3. [28] Y. Tai, J. Yang, X. Liu, and C. Xu, “MemNet: A persistent memory network for image restoration,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 4539–4547. [29] Y. Zhang, Y. Tian, Y. Kong, B. Zhong, and Y. Fu, “Residual dense network for image super-resolution,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. |
以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。