一、背景
在机器学习的研究中,我们都清楚人脸识别是一个十分热门的研究问题。而人的眼睛,作为人脸的一个特征点,一个人面部的重要组成部分,对其中所包含信息的研究,也是非常重要且有效的一个课题。眼表状态的信息,左右眼,睁闭眼等,眼睛所表现出的具体信息如眼球结膜,角膜,瞳孔,这些信息的提供与判断在计算机领域及医学等其他领域都有广泛的应用。例如,眨眼频率的高低可以间接判断一个人是否处于疲劳状态,应用于交通行业可以避免司机的疲劳驾驶。而角膜、瞳孔等更加精细信息的提取,可以帮助医生更加清晰与方便的判断一个人眼睛的状态与健康状况甚至可以延伸到身体的健康状况。本项目面向手机的眼睛状态自动识别系统的实现就是旨在帮助医疗者,对人眼状态进行获取以更加便利的对患者进行诊断。
二、相关文献的研究现状
(一)
神经网络使得机器智能的许多领域产生了革新,在图像识别任务上取得了超越人类的准确率。然而,产生这些准确率优化的驱动往往包含一个损耗:现代最先进的网络往往需要远远超过移动设备或者嵌入式设备能够提供的计算资源。
而MobileNetV2这种神经网络结构,它是专门为移动和资源受限环境而设计的。这一模型通过显著降低操作次数和内存需求,同时保持相同的准确性,提升了移动端计算机视觉模型水平。
Deep Residual Learning for Image Recognition [6] 这篇文章中,提出了一种残差的学习框架,以简化比以前使用的网络更深入的网络训练。显式地将层重新配置为参考层输入学习残差函数,而不是学习未引用的函数。我们提供了全面的经验证据,表明这些残差网络更易于优化,并且可以通过大大增加的深度来获得准确性。
MobileNet是一种基于深度可分离卷积的模型,深度可分离卷积是一种将标准卷积分解成深度卷积以及一个1x1的卷积即逐点卷积。对于MobileNet而言,深度卷积针对每个单个输入通道应用单个滤波器进行滤波,然后逐点卷积应用1x1的卷积操作来结合所有深度卷积得到的输出。而标准卷积一步即对所有的输入进行结合得到新的一系列输出。深度可分离卷积将其分成了两步,针对每个单独层进行滤波然后下一步即结合。这种分解能够有效的大量减少计算量以及模型的大小。在V1中,逐点卷积要么使通道数保持不变,要么使通道数翻倍。在V2 [16]中,情况恰恰相反:它使通道数变小。这就是为什么现在将该层称为投影层的原因-它将具有大量维(通道)的数据投影到具有较少维数的张量中。
例如,深度层可以在具有144个通道的张量上工作,然后投影层将缩小到仅24个通道。这种层也称为瓶颈层,因为它减少了流经网络的数据量。(这是“瓶颈残留块”的名称:每个块的输出都是瓶颈。)第一层是新手。这也是1times;1卷积。其目的是在数据进入深度卷积之前扩展数据中的通道数。因此,此扩展层始终具有比输入通道更多的输出通道-几乎与投影层相反。数据扩展的确切程度由扩展因子给出。这是用于尝试不同架构折衷的那些超参数之一。默认扩展因子为6。因此,块的输入和输出是低维张量,而发生在块内部的滤波步骤是在高维张量上完成的。这样,完整的MobileNet V2架构将连续包含17个这些构建基块。接下来是规则的1times;1卷积,全局平均池化层和分类层。MobileNet V2构建块中的第二个新功能是剩余连接。就像在ResNet中一样,它的存在是为了帮助梯度流过网络。像往常一样,每个层都有批量归一化,激活功能是ReLU6。但是,投影层的输出没有应用激活功能。由于该层产生低维数据,因此论文的作者发现,在该层之后使用非线性实际上会破坏有用的信息。
(二)
以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。