双目视讯跟踪和3D视频转码外文翻译资料

 2023-01-28 15:10:04

双目视讯跟踪和3D视频转码

4.1简介

传统的单眼跟踪方法主要是探索一个视频中的时间相关性去探测移动区域。随着3D信号处理技术的发展,多视图视频跟踪越来越受关注。在目前的跟踪算法中,帧数和视点的相关性分别用来预测物体的位置和速度,通过光波的流动和误差分析。目前室外的跟踪算法是利用地面视图对齐的单应性完成;每一个移动的物体通过背景算法探测出来。这些需要固定的摄像头,可能会有视角上的限制。通过录制视频后的切换视角的跟踪方法被用于图像配准和物体探测。

在98页中介绍的视频跟踪和视频流系统中,活动的摄像机为了在运行时进行操作而被采用。一个主摄像头由手动控制,其他的子摄像头将跟着移动。对于活动的摄像头对物体的跟踪,更加实际的方法是利用自动化的PTU/PTZ摄像头,这些摄像头的投影位置一般是不变的,视网平面能够做角度变换。在这种系统中,摄像机对跟踪行为的控制计算方法需要计算移动物体的角速度,在不同的视频平面的地面视图需要进行动作探测。在Petrov提出的PTU相机的跟踪算法中,一个基于李雅普诺夫稳定性理论上的线性的反馈控制器被运用。通过利用均值漂移算法得到的物体位置参数变化使控制参数得到更新。根据物体颜色的分布,均值漂移算法对固定物体位置的计算是很有效的,可是这个方法的关键性问题是对跟踪区域的缩放,因为对象的大小出现不同的深度的变化。一个根据相似性测量做出的尝试性的方案在93页被提出去校准跟踪区域。如果相似的颜色在跟踪区域边缘被呈现就有可能出现问题。基于对象的分割方法是更加粗鲁的而且更耗时。杨对缩放比例问题提出了一个更新的规则,通过比较模板和目标的之间的时间差异,但是只有小跟踪区域得到测试。

为了能够跟踪无人监管的环境,我们使用PTU设备(人工智能控制)去实现摄像机的控制。主摄像头能够旋转同时它的投影中心不会改变。一个子摄像头被安置在侧边,就像图片4.1中展示的,它会跟着主摄像头运动。均值漂移算法被采用在我们的设计中为了实时跟踪。随着双目摄像头的量产,我们考虑利用对象的深度/差异作为一个自然又可靠的资源来调整跟踪窗口,因为这些差异包含对象的位置信息,对多视频流很重要。

图4.1 双目PTU相机

在3D数据流技术发展中,我们考虑了在异构无线网络中不同的显示设备对转码的要求。因为不同类型的3D显示器都能够做3D视频渲染,因此有很多的格式去理解3D视频。3D视频的原理是基于不同信号会聚在双眼形成的双目视觉。因此三维视频最简单的解释就是包含两路捕获视角的立体画面。这种形式提供了三维感觉,但是它不能提供可变化的时差三维画面效果。同时,作为立体画面的替代品,视频附加的深度表示能够在一个有限的范围内提供可变视差。由于其简单的压缩技术,基于立体视频的附加深度可以很容易地用于移动3D视频应用。

目前,3D视频主要针对家用高清格式。高清3D视频大多是通过地面广播、光缆、卫星和网络电视传输。虽然高清3D视频提供了生动的视觉效果,但是它需要更大的传输带宽。随着高速网络,高清3D视频能够实现传输。然而,随着移动通信技术的发展,互联网大多是异构网络,包括有线网络和无线网络。异构网络能提供不同的传输质量。因为高清3D视频已经被压缩并主要分布于家用,可伸缩视频编码的解决方案并不适合3D视频在异构网络中传输。为了满足移动设备上的3D视频服务,比率还原和采样转码必须适应无线信道和移动设备需要。图4.2展示了比率衰减在移动3D视频流中转码应用。在媒体服务器中转码后,捕获的视频和生成的深度数据首先形成数据流通过互联网。如果接收者是移动用户,高比特率的高清3D视频数据会在转码网关中转码成低比特率的移动3D视频数据,然后传输到移动用户接收设备上。

图4.2 移动3D视频转码应用

基于双目视讯跟踪过程形成的3D视频内容,为了满足无线信道3D视频转码我们通过跨层控制器提出了一个动态转码速率分配方案。剩余的部分是这样分布的:4.2节介绍利用信息差异的双目均值漂移跟踪;4.3节描述快速差距估计计算方法;4.4节提供使用视差估计算法所得对象跟踪结果;4.5节介绍根据动态信道条件的对3D视频数据速率分布的跨层控制程序;实验结果会在4.6和4.7节总结中展示出来。

4.2 双目PTU相机跟踪

在这个部分,我们利用均值漂移算法和实时视差估算提出了双目PTU相机视频跟踪方案。这个方法是为了在更先进的视频监控程序中实现3D画面生成和准确跟踪。对每一个立体图像的差距估计被归结为一个能量最小化问题。运用course-to-fine方法,这个迭代解决方案得以实现。通过均值漂移算法,这种差值估算法可以用来衡量跟踪窗口,根据其内部的差距跟踪区域的大小是可以调节的,因此移动的物体更容易在摄像机中被锁定。这个程序包括实时显示和可以接受的准确度用来评估一些标准的测试数据。在我们的实验中,两个灰度摄像头由一个PTU设备控制。在一个普通的计算机(2.66GHz CPU, 4GB RAM)上,它对记录跟踪视频(640*480)的差距评估速度可以达到6fps/s。

视频跟踪过程在图4.3中说明。对立体图像的差值估算用来调整跟踪区域的大小。均值漂移算法可以算出检测中心位置,主相机中的PTU相机也可以提供它的位置。

图4.3 跟踪过程

PTU相机独特的几何属性就是平移和倾斜角度被控制的时候,投影模型的中心不会变化,就像图3.2(a)描述的。焦点F就是物体的中心,图像平面是沿着y轴,整个物体在x-y平面上,alpha;是物体中心与x轴间的夹角,theta;是图像中心与x轴间的夹角,f是焦距,Xc是物体中心和图像中心在x轴方向上的距离。只有平面控制是显示在图中的。这个算法可以类比在倾斜控制上。

线性反馈控制器的作用就是最小化Xc和对象的估算速度与测量速度的差值。根据李雅普诺夫稳定性理论,相机的角速度根据李雅普诺夫稳定性理论,相机的角速度,相机角度theta;,估算距离Xc在公式3.1~3.3中表示随实时距离变化。

一旦控制参数更新,主摄像头的差异信息就能像4.3节描述的方法估算出来,用于立体声整流的相机投影矩阵可以事先通过棋盘校准。控制参数更新后,使用均值漂移算法可以在新图像中定位对象中心。跟踪矩阵的窗口大小根据下式所得:

l1/l2=z2/z1=d1/d2 4.1式

两个连续变量l1,l2是跟踪窗口的边界长度,z是对象深度,d是目标区域的平均估算误差,就像下图所示。

图4.4 双目漂移算法和跟踪窗口大小调节

4.3 快速误差计算

视差估算的计算过程对实时物体跟踪是很有效的。立体匹配/误差分析被认为是进行视觉分析的基础。受欢迎的方法包括局部winner-take-all和全局MRF(马尔科夫随机场)优化.本地基本以一个社区的成本做计算。他们以实现速度快而出名,但是处理模糊或类似的纹理却很难。全局方法就很适合平滑约束能力,比如图像分割和置信传播。他们在曲面表面上的遮挡检测能力有缺陷而且计算费用很高。斯密斯提出对稀疏图执行图像切割优化,使用最大跨越混乱关系。局部过滤细网格被用来作进一步优化。虽然这种方法很容易选出非平表面,但是panning tree生成和完整图像滤波实现还是很昂贵的。对于跟踪过程,为了实时调整跟踪区域,误差分析必须满足实时要求。因为一些实时方法依赖GPU实现,Geiger基于德劳内三角提出了一种有效的匹配方法。这种方法在低变形区域表现出优越的结果,和半实时表现记录。然而,要求使用局部方法的最初的支点达不到相似纹理的匹配度,这些问题经常在有重复建设或有装饰墙的室内监控环境遇到。这些将在一些更细致的网格里反馈出错误的计算。而且,在细网格上也会使用局部方法进行差值估算,因此计算群包的变化不能进一步推算出像素的差值。

为了克服这个缺点,我们在最初的支点上提出了实现全局优化。通过迭代条件模式,从多个候选点中为每一个最初支点挑出最佳差值。在细网格上的误差分析过程可以不做能量最小化问题。数据的稳定度和平滑度都会限制迭代查询过程。

这个方法仍然保留着半实时和可接受的画面质量。

4.3.1 问题公式化

根据贝叶斯规则,视差估算过程可以被归结于MAP-MRF问题。例如,在双目立体匹配,从一对立体象对I1(左)、I2(右)计算左侧图样的问题可以归结于下式求解能量最小化问题

4.2式

是在像素点(x,y)的误差值,和是比例系数,和表示照片的一致性和平滑度。水平优化图像如下:

4.3式

4.4式

是梯度算符,表示相邻的像素点。使用微积分变换,4.2式的最小值可以用欧拉-拉格朗日方程求解:

4.5式

是的导数特性响应,是拉普拉斯算符。计算过程用迭代方式实现。d的初值表示收敛的速度。Kosov采用了一种多重网格的技巧。这个误差分析可以在更小的分辨率下计算出来,而且在全仿真方案得到更加精致的分辨率结果。在粗网格上的估算值为细网格迭代算法提供了一个很好的初始值。但是计算全部网格估计仍然很高。Geiger等人在一组检测特征点运用德劳内三角法实现了快速运算。这个想法就是给一组稀疏的支持点赋予差异值,这些点的三角测量可以细分为小三角地区,每个点的差距值可以用三个特征点的差异值做近似。这个方法对获取初始差距非常有效。缺点就是使用局部方法检测顶点时会导致错误的插值。因此我们使用全局ICM去检测支点。迭代求解过程可以表现为一个由包含三角测量结果的初值的正常网格。误差估算的多分辨率方法由下节讲解。

4.3.2 多分辨率方法

为了加快误差估算的过程,我们采用coarse-to-fine方法减少计算消耗,粗网格由粗略的left-right图像的特征点对应,使用局部法寻找光一致性点,和全局ICM匹配。在粗网格上进行德劳内三角测量获得初步估算值,然后在细网格上使用局部搜索。为了准备ICM法实现替代法,粗网格上挑选多个具有高光一致性的特征点作为纹理支点。

4.6式

阻塞与阈值检测方法。

4.7式

T1阈值参数。d的最佳值由下式决定(n=2)

4.8式

如果一个支点无法产生任何有效的匹配,就像公式4.6说明的那样,它就会从一组数据中消除。根据公式4.8,ICM的多次迭代计算之后,大多数的伪值因为存在相似纹理得到纠正,同时一些有效的支点会被保留。结果可以从下图4.5观察芦荟(1282*1110)的测试数据中得到证明.失真率会从2.92%下降到2.46%。两个ICM迭代过程的多余计算时间可以忽略。

图4.5 芦荟的视察估算。使用Geiger方法的结果,使用ICM法(左)/没有使用ICM法(右)检测支点

德劳内三角插值的概念就是给一组稀疏的支点给定差值,这些点的三角测量可以细分为小三角区域,每个区域内的支点差距可以近似为三个顶点的插值差异值。如图4.6所示,给定三个支点S1,S2,S3的差值,三角平面S1S3S4提供内部平面的像素差值,假设一个点是绿色。因此最初对整个图像的差值猜想就能用上面提到的方法计算一系列稀疏支点所得。

图4.6 德劳内差值法

应用德劳内三角差值法计算支点获得初始差值,结果由公式4.5简化。公式的离散化形式如下:

4.9式

应用高斯-赛高尔方法,多次运用高阶线性方程可以解决。经过(t 1)-th多次叠加,像素点i的差值也如下变化。

4.10式

表示像素点i前后相邻的像素点。在实际的实现过程中,两种情况都要考虑,在纹理区域(由边缘检测选出),在第二个部分应用值比较法进行局部搜索,一致性的点的最小差值作为变量。在非纹理区域,第一部分的值就数据上来说是很小的,可以忽略。被赋值为1来对相邻像素点施加影响。当达到最大迭代数时演算过程就会停止,或者差值变化值低于阈值。迭代过程一定会收敛,因为。

4.3.3 3D内容生成

为了验证提出的误差估算法的有效性,明德数据集里的一些立体图像对被用来测试匹配度和有效率。使用disparity-based窗口缩放均值漂移算法的事物跟踪的结果会在4.4节给出。

用于三角插值法的特征支点会在测试图像的稀网格中挑选出来。只有强度数据是被处理过的。在实验中两种不同单元尺寸的网格被测试,8*8大小和16*16大小。计算速度匹配率(M.R)和选取的支点的数目在表格4.1中列出,在所有无边界区域的two-pixel误差阈值。两次迭代数在迭代差值算法中被执行。差值算法的结果在图4.7表示。闭塞区域被相邻像素的结果替代。

表4.1 失配率(%)和支点的数量

在锥体的不同阶段的的评估时间在表4.2中给出。失配率的衰减在图4.8展示。大多数的误差变化发生在第一次的二次迭代。对比盖格算法,额外的处理时间发生在细网格的迭代进化中。每次迭代的平均处理时间是52ms,平均失配率衰减是0.5%。

表4.2 不同阶段的处理时间:计算支点,三角剖分插值,一次迭代,二次迭代,三次迭代,四次迭代,五次迭代

图4.7 误差估算

图4.8 失配率衰减

4.4 对象跟踪

在对象跟踪的过程中,两个PointGrey Firefly MV CMOS相机放置在PTU装置上,用USB2.0接到桌面。这个640*480的视频以每秒15帧的速度记录。对于视差估计的平均处理时间为178毫秒每帧。通过用户输入获得初始跟踪窗口。每3帧调整一次跟踪窗口。视差估计和跟踪的结果在图4.9给出。在跟踪过程中,物体沿着建筑里的走廊移动。环境包含纹理(马赛克砖)和非纹理(墙,地板,支柱)材料。当使用传统的均值漂移跟踪使用固定大小的窗口,当对象接近类似的颜色时相机会失去物体的轨迹,如图4.9(乙),当旧的跟踪窗口内的颜色分布不

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[150494],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。