基于注意机制的3D人体运动预测文献综述

 2022-11-24 21:25:44

人机建模是计算机视觉的经典问题,广泛应用于人机交互,自动驾驶等领域。人类行为模型可用于生产改进人机系统。如果机器能够更好地识别和预测人类行为,它就可以不断调整自己,更好地满足人类的需求。比如如果能准确地识别行人的轨迹,准确地预测短期运动,就可以减少交通事故,这在自动驾驶领域具有重要意义。

但由于人体运动是物理局限性(如由肌肉施加的扭矩、重力等)和受试者意图这两者共同作用的结果,因此人体运动是有高度不确定性的。在这种情况下,即使是利用极其出色的模型预测,得到的结果也可能与真实值相去甚远。因此,文献中经常区分度短期和长期预测任务。其中,短期预测通常求出预测与真实值的误差来进行定量评估,长期预测任务经常在人体运动捕获数据集上进行人工评估来评估预测质量。

  1. 人体运动预测算法分析

人体运动预测需要将人体运动建模并且生成姿态序列作为输入。人体运动建模则依赖于人体运动捕获数据集。得易于人类运动捕获系统和姿态估计算法的发展,研究人体运动时大规模数据集是容易得到的。常用的数据集有 2D 姿态估计数据集:MPII,LSP,FLIC,以及 3D 姿态估计数据集:Human3.6m,CMU Panoptic dataset,MPI-INF-3DHP,AMASS,3DPW等, 其中Human3.6m是目前最大的 3D 人体姿势估计数据集,有360万个3D人体姿势和相应的图像,它是进行3D人体运动预测时最常用的数据集之一。但是由于3D标注识别很复杂,所以需要大量的传感器和摄像头采集数据。这也对户外采集造成了一定困难。所以目前3D的数据集几乎都是室内的(3DPW除外)。在这种情况下,也生成了人体运动预测的不同策略。如隐马尔可夫模型和高斯过程动力学模型。最近,递归神经网络(RNN)已应用于短期和长期预测。卷积网络和前馈网络也已成功应用于长期的运动生成的任务。

传统方法,比如隐马尔可夫模型[11]和高斯过程动力学模型[12],已被证明对简单的运动(如步行和高尔夫挥杆)有效。然而,在更复杂的运动中深度学习[2,3,4,5,6]表现更优。所以递归神经网络(RNN),生成式对抗网络(GANs)和前馈神经网络(FNN)也常常被用于人体运动预测。

    1. 递归神经网络

递归神经网络由输入层,隐藏层和输出层组成,并且输出值是受前面每次输入值影响的,所以它适用于处理序列信息。

由于我们在进行运动预测时,输入的数据是有时序的,所以RNN经常用于人体运动预测。虽然人体运动预测关于递归神经网络的方法有很多,但是它们要解决的问题和模型构建却各有各的不同。为了解决输入一个 RGB 图像并生成一个即将到来的3D人体姿势序列的问题,Chao Y W 等人[1]提出了3D-PFNet模型,不同于其他的3D人体运动预测,它是首先进行2D人体运动预测,然后利用3维骨架转换器将其转换为3D人体运动。利用2维特征进行3维表示有利于野外人体运动预测。Habibie等人[7]就利用了这个思想,进行了野外人体姿态估计。ERD模型[2]即encode-recurrent-decode,是一种将表征学习与学习时间动力学相结合的递归神经网络(RNN)模型,比较简单粗暴,但是容易快速收敛到均值。SRNN[3]用图模型来解决问题,思想简单,但是参数多且训练比较复杂,这对 3D 人体运动预测造成了一定困难。Seq2seq 模型[4,5,6]在人体运动预测上表现良好。而且 Seq2seq 模型的变形很多,目前很多研究都是在此基础上进行的。比如为了解决第一帧不连续问题,Martinez J 等人[5]在 Seq2seq 模型中加入残差结构,并且用残差结构模拟速度,在短期预测上取得了较好的性能。Hai-Feng 等人[4]在 Seq2seq 模型中加入注意力机制,发现该模型不仅能提高短期运动预测的误差,而且能显著提高精确预测的时间。陈紫珍等人[6]在 Seq2seq 模型中采用双向 GRU,注意力机制和残差结构相结合的方式。

然而,正如在[13]中所讨论的,RNN它们很难跟踪长期历史,在中长期范围内,它们倾向于生成静态姿势。而且这些方法都不能克服所观察到的姿势与预测的未来姿势之间的不连续性的影响。

1.2 生成式对抗网络(GAN)

生成式对抗网络是一种生成模型,它有两个模型:一个生成器,一个判别器。判别器的任务是判断给定图像是否看起来“自然”,换句话说,是否像是人为(机器)生成的。而生成器的任务是,顾名思义,生成看起来“自然”的图像,要求与原始数据分布尽可能一致。

GAN训练原理:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。