基于神经网络的端到端视频编码技术文献综述

 2023-03-22 10:59:24


一、文献综述

  1. 国内外研究现状

与视频图像压缩相关的技术有很多,本文主要从一下几个方面介绍研究现状。

  1. 传统图像视频编码研究

在过去的几十年里,全球的研究人员已经指定并标准化了五代编码标准,其中包括H.261、MPEG-4、H.264/AVC、H.265/HEVC和最新一代的H.266/VCC。其中最成功的且目前依旧广泛应用的是H.264/AVC(Wiegand et al.,2003a)标准。经过几十年的技术发展,视频编码基本采用基于块的运动补偿预测、残差变化量化和熵编码方法,这些方法是采用手工设计且形成了统一的技术框架。

HEVC (High Efficiency Video Coding)逐渐和深度学习相结合,这种新型的编码架构也开始引起了学者们的重视,此种新编码架构把深入了解科技融入到HEVC中,是对原始编码架构的进一步拓展,以发挥深入了解的优点,进而提高了HEVC的解码性能。目前,深入了解信息技术在HEVC中的运用,一般包括到:帧内预测、帧间预测、熵编码、后处理等技术环节。VCC (Versatile Video Coding)在继承HEVC的基础上,增加了新的编码工具以实现更优的压缩性能。与HEVC中统一的亮度和色度编码块划分结构相比,VVC中I帧的色度采用独立的划分编码结构,色度块不再与亮度块一一对应,两者采用不同的编码参数;对于B帧和P帧,亮度和色度分量仍然具有相同的划分结构。具体来说,VVC在I帧编码期间首先对亮度分量进行编码,并且仅在对亮度分量编码之后才对色度分量进行编码。

有些学者试图使用深度学习技术来实现视频插帧。Dosovitskiy等人利用卷积方式神经网路来估算运动光流,表明卷积方式的神经网路能够学习到运动信号。Zhoul等人则使用卷积方式的神经网路来预测体外观流动,从而来制备新的运动图像。这个方式能够通过将输入的向前二个帧加以混匀,来制备中间帧。Liu等人还提供了体流动的方式,使用卷积方式神经网路去估算前二个帧间的体流动,从而使用前二个帧信合制备出新的中间帧。Niklausl等人首先使用卷积式神经网络来给新组成的中间帧的每一条象素点估算一组逐点卷积核,进而使用前后帧与所估算的逐点卷积核做卷积获得了中间帧。

  1. 深度学习的研究

一般情况下,基于深度神经网络的压缩视频后处理滤波器将解码端重构的视频切分为图像块,并输入到深度神经网络中,最后拼接得到提升质量后的重构视频。王正使用了20层的卷积神经网络对压缩视频进行后处理滤波以提升压缩视频的质量。蒋昊提出了一个可变尺寸的卷积网络( Variable-filter-size Residue learning CNN,VRCNN)来对HEVC帧内编码的视频进行去噪的后处理操作。在视频编码领域,考虑到帧间编码和帧内编码产生的重构视频的特性不同,研究者也提出了一些针对于帧间编码的视频的后处理网络。张新峰首先阐述了深度学习技术在视频编码应用领域中的发展状况,以及传统解码架构下深度学习视频编码工具,和以深度学习模型为基石的视频解码新架构,并对各代表性工作成果进行了详尽阐述与性能解析。最后,对深度学习视频编码技术所遇到的新挑战,以及未来发展走向做出了剖析与预测。贾川民在文中总结了基于神经网络的图像视频解码关键技术及发展方向,对采用了多元感知机、随机神经网络、卷积神经网络、循环神经网络、生成对抗网络系统等新架构下的影像压缩,以及基于深度学习的各种视频解码工具进行了系统综述说明,同时也对神经网络编码的未来发展方向做出了剖析和预测。随着Inpainting及其相关技术的蓬勃发展,基于Inpainting的压缩架构也开始引起了学者们的重视,林建平教授运用了深度学习技术结合Inpainting理念提供了一种全新的影像压缩架构,该构架也是出于一种渐进模型重构的思路。

3.端到端学习的编码研究

从目前情况来看,另一方面是由于目前的最新解码规范中已整合了较的重复解码模组,进一步持续性的改善其解码特性的困难将进一步加大;但是,由于人类智能应用如搜索、鉴别、跟踪、信息检索等的迅速进展,这些启发式地调节编码参数的模型,已无法适应其对新媒体内容的使用需求。何天宇教授根据不同应用要求,着重探讨了从端到端的图像视频压缩方式,并试图破解传统编码技术框架所无法破解的难题。提供了一个端到端练习的视频压缩架构。在该架构中,又提供了一个基于块的对于端到端练习的预测编码方法,并根据其结果建立了端到端的练习视讯压缩架构。陈积敏教授等人在图像大数据分析应用背景下,伴随着硬件科技的高速发展,基于深度学习的图像视频解码技术也越来越完善。通过端到端学习的压缩架构,因可更有效地对原始图像数据进行紧致表达,在学界和工业界均受到了普遍的重视。然后又系统地总结了基于端到端学习的图像压缩架构中的核心模型,如变换、量化、熵编码以及损失函数等的研究状况,对其研究进展与技术进行了概括性的阐述,并对前沿成果进行了性能对比。Lu Guo等人提出了一种用于视频压缩的完全端到端的深度学习框架,其继承了传统视频压缩标准中经典预测编码方案的优点和DNN强大的非线性表示能力,且性能优于广泛使用的H.264视频压缩标准,并且可以将新技术插入到这个框架中来更好地提升性能,为深度神经网络应用于视频压缩提供了一个很有前进的框架。

(二)研究主要成果

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。