具有3D身体手和面部重构的独立手语识别

对于手语社区来说，手语识别是一项至关重要的任务。但是，这是一项艰巨的任务，因为必须组合三个不同的信息渠道：面部，手和身体。不幸的是，尽管当前的技术在每个任务中都取得了成功，但尚未开发出足够的方法来识别来自所有三个通道的手语。

因此，最近的一项研究表明，为此任务，应使用SMPL-X，这是一种基于深度学习的人体模型，可以从单个RGB图像重建3D人体信息。它检测身体，手和面部2D关键点，然后投影3D关节以与检测到的2D位置一致。

然后，将符号帧上的SMPL-X参数序列用作循环神经网络的输入，以对符号进行分类。基于SMPL-X的方法优于当前方法。还表明，忽略三个通道中的任何一个都会大大降低模型的准确性。

独立手语识别是一个复杂的视觉识别问题，由于必须利用和融合来自手势，身体特征和面部表情的信息，因此将计算机视觉的多项艰巨任务结合在一起。尽管据我们所知，许多最先进的作品已成功地对这些功能进行了详尽的阐述，但没有任何作品能够充分结合所有三个信息渠道来有效地识别手语。在这项工作中，我们采用了SMPL-X，这是一种当代的参数化模型，能够从单个图像中联合提取3D身体形状，面部和手部信息。我们将这种整体3D重建用于单反，证明与从原始RGB图像和将其光流馈入用于3D动作识别的最新I3D型网络以及从馈入递归神经网络的2D Openpose骨架进行识别相比，其准确性更高。最后，一组关于身体，面部和手部特征的实验表明，忽略这些特征会大大降低分类准确性，从而证明了对人体形状，面部表情和手部姿势进行联合建模对于手语识别的重要性。

相关推荐：