基于CNN的视频参考帧合成技术文献综述

 2023-03-22 10:59:12


一、文献综述

  1. 国内外研究现状

由于机器学习和神经网络的技术应用的推广,现在诸多研究机构和人员在原有基于光流法插帧技术的基础上,利用神经网络的学习能力添加甚至替换原有插帧的部分技术,因此就目前研究状况来说,基于cnn的视频插帧技术的研究处在如火如荼的阶段,例如,应用于视频编解码器的视频插帧和外推技术,可以有效降低信道传输码率,提高带宽利用率和实用性,在提供视频帧率的同时,提高传输速度。

传统方法(Baker et al. 2011;Werlberger等人,2011年;Yu et al. 2013)对于帧插值,通常通过立体匹配或光流预测估计连续帧之间的密集运动对应关系,并根据估计对应关系合成中间帧。这些方法继承了对应估计,导致了计算密集型的优化,效率较低。此外,这些方法倾向于在对象边界周围产生伪影。cnn在光流估计中已经被证明是有效的(Bailer, Taetz, and Stricker 2015;Dosovitskiy等人2015年;Gadot,Wolf 2016;Guney和Geiger 2016;Teney and Hebert 2016;Tran等人2016年;Weinzaepfel等人,2013)。这些基于cnn的流场预测方法需要以密集通信形式训练数据,而密集通信形式的训练数据很难标注。此外,基于光流的插值帧由于其目标是生成光流,因此常存在伪影。

一些帧合成方法利用cnn直接生成图像(Goodfellow et al. 2014)和视频(Vondrick, Pirsiavash,和Torralba 2016;Xue et al. 2016)。因此,他们没有使用密集的通信作为训练数据,而是使用基真中间帧。然而,这些方法仍然受到结果模糊和工件的影响。Liu等人(Liu et al. 2017)通过参考现有帧中像素的相干区域,并利用光流的网络层来解决结果模糊的问题。他们的方法使合成的画面更清晰,但伪影的问题仍未解决。其他方法(Niklaus, Mai, and Liu 2017a;2017b)将运动估计和帧合成结合到一个单一的卷积步骤。他们估计每个输出像素的空间变化的核,并将它们应用到输入帧进行帧插值。尽管这些方法是有效的,但它们需要特定于像素的核估计,并且消耗大量的计算能力和存储空间,特别是在高分辨率的帧合成中。

目前最先进的方法(Jiang et al. 2018;Niklaus和Liu 2018)利用CNN预测输入图像之间的双向光流,并利用另一个CNN模型基于预测的流合成插值图像。然而,这些方法要么需要额外的训练数据来进行光流估计,要么需要大量的训练时间。

不像大多数现有的方法,通过设计更强大的深度特性或架构来增强帧间极化,我们的方法通过利用两个扩展的周期一致性损失来减轻前面提到的back。我们的方法有三个优点。首先,我们的方法通过解决模糊的结果和人为因素的问题,实现了超越现状的性能。其次,虽然现有的方法需要更多的训练数据来学习强大的特征或网络,但我们的方法对于训练数据不足的问题更具鲁棒性。第三,使用循环一致性损耗不会增加模型参数。因此,训练和推理成本几乎保持不变。这些优良的特性将我们的方法与之前的工作区别开来。

使用循环约束正则化结构化预测已在文献中进行了探索。对于语言翻译来说,使用反向翻译和调和(Brislin 1970)可以有效地提高翻译质量。对于视觉跟踪,加强前后一致性有助于达到更好的结果(Sundaram, Brox, and Keutzer 2010)。高阶循环一致性已被用于不同的视觉任务,如运动中的结构(Zach, Klopschitz,和Pollefeys 2010)、3D形状匹配(Huang和Guibas 2013)、共分割(Wang, Huang,和Guibas 2013)、密集语义对齐(Zhou等人2015;2016)、深度估计(Godard, Mac Aodha, and Brostow 2017)和图像到图像的翻译(Zhu et al. 2017)。对于深度学习,研究努力(Zhou等人2016;2017年,Godard、Mac Aodha和Brostow;Zhu et al. 2017)利用循环一致性的概念来正则化深度模型的训练。

据我们所知,这项工作是利用周期一致性来改进视频帧插值的第一次尝试。我们设计了一个两阶段的优化程序,使两个映射方向在循环约束下共享插值模型能够稳定地学习。结果表明,我们的方法可以在不引入额外可学习参数的情况下大大提高插值的质量。此外,通过考虑应用特定的知识,扩展了循环一致性的概念,可以解决大运动或丰富纹理区域的性能下降问题。

  1. 研究主要成果

使用了循环一致性损失,运动线性损失,边缘引导训练等方法实现光流的预测,与其他模型相比较,发现产生同等的插帧效果,CyclicNet使用更少的训练组。当使用只有1/1000的训练数据(意味着仅仅280个三胞胎用于训练),该方法仍然可以保持非常好的性能(36.10dB),甚至更好较全数据训练的基线方法(35.98dB)。实验表明,CyclicNet结构充分利用了训练数据,它不会受到过度拟合的影响,而且是稳健的,即使训练数据很少,同时提供结构遮挡问题的处理办法,即使用边缘图来预测。

CyclicNet项目主要将插帧方法与两种最先进的方法进行比较,即可分离自适应卷积(SepConv) (Niklaus, Mai, and Liu 2017b)和deep voxel flow(DVF) (Liu et al. 2017),可公开获取executables。在评估米德尔伯里流量基准时,还比较了列出的最佳性能方法在基准网站。补充视频显示CycleciNet方法的插值结果为8times;帧速率。对于UCF101,该方法同时计算PSNR和SSIM使用(Liu et al. 2017)提供的运动遮罩。优于这两种方法DVF和SepConv的PSNR分别提高了1.07dB和0.47dB。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。