摘要:
本文研究了在包含深度和强度信息的视频序列中独立运动目标的运动估计和分割,例如由TOF相机捕获的视频。 具体来说,本文提出了一种基于深度和强度数据融合的运动估计算法。 所得的运动信息用于导出长期点轨迹。 一种分割技术根据轨迹的运动和深度相似性将轨迹分组为时空段。 对合成视频和真实视频定量和定性分析验证了所提出的运动估计和分割方法。 该框架从飞行时间摄像机记录的视频中独立地提取运动物体.
关键词:ToF摄像头,距离流,光流,运动估计,分割
1.介绍:
本文提出了一个包含深度和强度信息的视频运动估计和运动分析(即分割)框架。最近推出的低成本深度相机,如飞行时间(TOF)相机和Microsoft Kinect,激发了利用这些相机提供的深度和强度信息解决方案的需求。 重点研究了TOF摄像机拍摄的视频的运动估计和运动分割。 这些相机使用连续波调制红外光在整个图像平面上同时测量深度和强度。 使用发射信号和接收信号的相位差来计算深度图像。 强度图像基于接收信号的幅度[44]。 我们提出了一种稠密的方法,即在每个像素处进行运动估计和分割。 然而,最先进的深度照相机在测量范围、高噪声水平和系统畸变方面存在局限性[26,28,34,44],这对稳健和准确的运动分析提出了挑战。在TOF相机的背景下,系统变形的一个例子是由物体反射率引起的深度变化(即,低反射表面与高反射表面的距离不同)。 这项工作中解决的问题,即运动估计和运动分割,在各种与视觉相关的任务中发挥着重要作用(例如,目标跟踪[8,33,64]、变形分析[15,63]和视频编码[16,59])。作为高级场景分析的支柱,有更广泛的应用范围,包括手势识别[9,22]和场景理解[61,65]。此外,分割,或者更精确地说是独立运动物体的运动,可以用来确定摄像机的运动。然而,含有深度信息的视频的运动估计和运动分割仍在研究中。具体来说,在这种情况下,运动分割方法通常依赖于用户输入或预先定义的对象模型(例如[41,60])。 通过高时间采样同时捕捉深度和强度,可以进行全面的三维场景分析。这在深度或强度通道纹理较低的场景中尤其有利。该框架利用深度摄像机提供的强度和深度信息,对运动进行估计,并将均匀运动的物体分组成若干段。具体地说,本文提出了一种全自动的分割算法,能够从深度摄像机拍摄的场景中提取多个运动对象,对运动估计算法的主要贡献是一种新的稠密运动估计正则化方法。提出的分割算法将分割领域的最新进展(如[5])转移到三维领域。此外,对从先前估计的运动信息导出的深度和点轨迹进行分割。 这一工作进一步推进了我们先前在运动分割方面的工作[13]。 与先前的工作相比,使用完整的3D运动估计模型,其中深度和强度数据都用于估计3D对象速度。 提出了一种新的全局正则化方法,该方法将鲁棒估计和各向异性平滑结合到正则化方案中。 此外,使用标准度量来定量地评估所提出的运动估计和分割结果 。 论文的其余部分组织如下。第2节概述了运动估计和分割的最新技术,并将我们的工作与之联系起来。第3节描述了提出的框架。在第4节中,使用运动和分割地面真实性(ground truth.是一个用于各个领域的术语,指直接观察提供的信息,而不是推理提供的信息)对框架进行评估。
2.最新技术
不同类型视频材料的运动估计已经被研究,包括传统的彩色或灰度视频(如[35])、立体视频(如[58])和深度视频(如[51])。此外,光流估计技术估计彩色或灰度图像序列中的2D运动。 这些技术通常基于亮度恒定假设,该假设表示像素亮度从一帧到另一帧保持恒定。差分方法(基于时空图像导数)通常用于光流量估计[6]。这些方法可以大致分为局部方法和全局方法。局部方法估计局部邻域上的运动(例如[35])。全局方法最小化同时估计整个图像上运动的全局能量函数(例如[24])。为了更详细地总结最新的光流技术,感兴趣的读者请参考[2,3]。 从彩色或灰度图像估计包括深度运动的3D运动被称为场景流估计[58]。 特别地,场景流基于立体对(从稍微不同的视角拍摄的两个图像)。 立体对用于通过立体匹配重建场景的3D结构(例如,[4])。 通常在联合场景重建和光流估计框架中研究场景流问题(例如,[56,61]) 。 我们提出了一种将光流与距离流相结合的运动估计方法。距离流[51]是指从深度图像序列中导出的三维运动矢量。关于从深度图像序列中运动的最初工作出现在[23]。此外,[23]从深度视频中导出刚体运动的参数。然而,“距离流量”一词首先出现在[63]中。在[63]中,使用距离流计算可变形表面上的运动场。 上述提及的运动估计问题是相似的,因此也处理相似的问题。 特别地,场景流和距离流求解相同的未知3D对象运动。 相反,光流计算2D图像运动。 然而,如果场景的结构(深度)是已知的(例如,[1,11,25,43]),则光流可以与3D对象运动直接相关。 因此,研究人员已经成功地结合了相应的运动估计方法以改进它们的估计结果(例如,[14、17、43、47、47、52]) 。 一般来说,运动估计必须处理孔径问题[3]。此外,距离流和光流的估计要求在深度和强度上分别存在纹理。在纹理为线的情况下,局部只能可靠地估计垂直于线的速度分量。同样,在深度存在线性和平面结构的情况下,只有垂直于线性和平面结构的速度才能可靠估计[53]。通常,运动估计方法通过施加平滑度约束来解决这个问题。这个约束假设相邻的运动向量是相似的。显然,这个约束在运动不连续处是被违反的。因此,约束在这些区域中被放松。这可以通过应用各向异性平滑项来实现(例如[62])。 在运动估计方面,与我们最密切相关的工作是由Spies等人完成的〔53〕。该算法采用局部运动估计步骤和全局正则化步骤组成的两步方法来估计流矢量。局部运动估计步骤使用总体最小二乘法计算稀疏流场。正则化步骤最小化了计算稠密流场的全局能量函数。在[53]中,假设总最小二乘法设计矩阵的系数不相关。然而,由于计算图像导数引起的相关性,该假设无效[40]。与[53]相比,我们提出的局部运动估计方法基于局部运动估计和全局正则化方案的普通最小二乘。此外,我们还采用了稳健的权重来计算总误差。此外,我们还采用了平滑度项的各向异性加权,这可以防止通过运动边界的流向量平滑化。 分割是指将数据分割成在某个特征空间内同质的组(段)。根据应用程序的不同,数据类型和特征空间也会有所不同。例如,通过分析运动,分割可以将具有类似强度[31,37]或深度视频的图像像素分组为静止和移动对象[30]。我们提出的框架旨在将深度照相机拍摄的视频分割成连贯运动的片段。在这种情况下,分割算法必须处理噪声、时间停止和遮挡。理想情况下,分割结果是时空连贯(无闪烁)的,并且在不事先了解场景的情况下分离多个对象。 对深度数据进行分段的各种方法(例如[7,12,13,19,20,27,30,38,41,48,65])已经被提出。与本文提出的框架相反,这些方法主要集中于将场景分割为平面或基本形状(例如[19,20,27,30,38,48])。他们处理噪音的策略包括研究局部几何结构,如表面法线或曲率,而不是单独研究深度或强度。 与表面分割相比,关于TOF视频运动分割的文献是有限的。Wang等人[60]对TOF视频进行交替运动估计和分割。一旦用户粗略地初始化了一个对象,就可以根据根据先前估计的运动信息演变的活动曲面对其进行分割。这种方法处理多个移动对象。但是,为了分离不同的移动对象,必须分别初始化它们。与[60]相比,我们提出的方法不依赖于用户输入。 与运动分割相关,对象跟踪算法,如[41]或[36],跟踪并从场景中提取对象。Noyer等人[41]提出了一种基于模型的方法,其中在三维多传感器框架中跟踪对象。但是,该方法要求跟踪对象使用CAD模型进行预先定义。Leens等人[30]通过背景减法检测运动物体。为了增强对噪声的鲁棒性,它们结合了从深度图像派生的运动图和从彩色图像派生的运动图。因此,在分割之前,必须将来自附加的RGB相机的图像配准到深度图像中。[45]中给出了交通监控背景减法的一个例子。与我们的方法相反,背景减法既不考虑时间停止,也不区分不同的运动对象。 除了背景减法,明确估计的运动信息也可用于(运动)分割方法。此外,对局部运动信息(如光流或距离流)的分析已反复证明有利于彩色视频分割(如[18])。这些方法通常会产生一个稠密的标签,其中每个像素都分配给一个段。然而,由于两个物体的运动可以在局部相似,这些方法可以从颜色或深度等附加信息中获益。 为此,提出了一种更具全局性的分割方法(如[5,29,32,42,57])。这些方法研究了长期的运动线索,可以提供比局部运动信息更丰富的信息。它们使用跟踪来推导点轨迹(例如[46,55,57]),然后根据全局运动相似性(例如[5,32,42])对点轨迹进行分组。然而,由于轨迹是稀疏的,分割的结果也是如此。为了将剩余的点分配给段,可以合并其他信息(例如颜色[32,42])。 与这些方法类似,所提出的框架生成点轨迹,这些点轨迹是由先前估计的流向量导出的,但试图为深度视频的每个像素导出轨迹。因此,它处理局部相似的运动,并自然地保持时空一致性。一种高效的基于图的分割技术,可以分析运动轨迹和深度轨迹的相似性,从而避免了噪声强度数据的直接影响。在前面的工作[13]的基础上,定义了流的所有分量上(包括深度运动)的运动相似性。此外,深度相似性是在更为稳健的特征(即深度直方图而不是平均深度)上定义的,并与加权方案中的运动相似性相结合。
3.算法描述
该框架包括两个主要部分:运动估计和运动分割。提出的局部运动估计模型(第3.1节)是基于距离流和光流约束的综合。随后,使用置信度度量来消除可能不准确的流向量。第3.2节描述了用于获得稠密流场的全局正则化方案。轨迹生成步骤(第3.3节)将估算的流场作为输入。最后,基于图的分割算法根据深度和运动相似性对轨迹进行分组(第3.4节)
3.1 局部运动估计
我们提出的运动估计算法基于距离流和光流约束的结合。因此,深度和强度信息被同时利用。距离流描述了运动曲面的三维运动。将曲面定义为其空间位置随时间的函数 时,深度随时间的总变化可写为[50]:
这里, 和 是曲面的关于空间的导数, 是曲面的对时间的导数。
是全局坐标系(X,Y,Z)的位置运动,通常以公制单位表示。
式(2)被称为距离流约束方程[50],它涉及到在全球坐标中曲面的导数。但是,Z坐标是图像平面上的曲面投影。因此,在图像坐标(x,y)中,距离-流量方程可以类似地写为(1)式[50]:
这里,、 和 是图像空间中Z的时空导数, (u,v)分别是是二维图像的速度。然而,我们通过考虑图像和三维运动之间的关系来计算全局坐标中的三维运动(U,V,W)。当考虑透视投影并假设全局坐标系与传感器坐标系对齐时,图像运动与物体运动之间的关系由下式给出:
Z是深度,X和Y是图像坐标。c是相机常数(即焦距)。用式(4)替换式(3)中的像素速度可得出:
光流描述了图像空间中每个像素的二维运动。光流约束方程(或亮度恒定性假设)由以下公式给出:
公式推导如下:(Determining Optical Flow)
这里,, 和 分别是强度的时空导数,为了最终获得三维物体速度,我们用像素速度(式(4))代替,得到一个修正的光流约束[25]:
式(5)和(7)中的未知向量(U,V,W)是每个像素的三维物体速度的组成部分,使用局部邻域上深度和强度的时空导数计算。对于每个像素,公式(5)和(7)提供了两个约束条件,并包含三个未知数。为了解决这个不适定的问题,必须制定额外的假设。与[35]相似,我们假设运动在每个点的一个小邻域中相似。因此,局部邻域中每个点的流量约束方程(Eqs(5)和(7))可以写成一个超定方程组:
这个方程组可以用一个常最小二乘解来求解。此外,窗口给每一个像素提供 个方程。x是未知数(U,V,W)。观察值Y包含每个像素的深度和强度变化。系数矩阵A对场景纹理进行编码,E为残差向量。方程组的求解方法如下:
这里,Q 是一个对角线矩阵,包含观测值的先验方差[39]。 Q的逆作为调整中观测值的权重。估计的未知量的精度(方差)由以下公式给出:
其中,n是观测值的数量。矩阵 的对角线元素表示估计参数的精度()。在存在多个运动和遮挡情况下,σ0较大[53]。因此,Qxx对角线元素中的结果值也很大。在具有线性和平面纹理的区域中,Qxx的分量指示纹理信息的缺少。因此,我们使用Qxx的对角线分量作为相应估计流向量分量的置信值。 特别地,我们移除了Qxx对角线元素中超过固定阈值 的流向量。相反,高精度计算的流量分量或矢量(即低于固定阈值σ2max)保持不变。因此,局部运动估计可能产生稀疏流场。
3.2 全局正则化
由于稠密运动分割需要稠密运动信息,正则化步骤的目标是估计每个像素的完整三维运动。在本节中,参考先前(第3.1节)估计的流向量(x),使用像素索引(i,j)(例如 )来进行。全局正则化步骤通过最小化以下能量函数来整合所有局部运动估计集的信息和平滑先验信息[24,53]:
项 使用在像素坐标(i,j)处的先前估计的流向量 和相应的置信值Qxx(像素的下标(i,j)不与Qxx一起使用)从局部运动估计中最小化以下总和:
这里, 表示正则化的未知流向量。 数据项确保差值 很小。 对于以高精度计算的流向量x来说尤其如此。
正则化方案中的第二项平滑度项 假设相邻像素之间的运动相似。因此,它将相邻的三维速度差之和最小化[54]:
为了确定正则化的稠密流向量,我们执行全局最小二乘估计,以最小化整个图像上的两个项(即方程(13)和(14))。在等式(12)中,由于观测值各自的精度提供了权重,因此未规定 和 项的相对权重。 它分别在矩阵 和 , 中给出,定义如下。第一组代表等式(13)的观测方程可写成以下形式:
如上所述,精度 是在局部流估计期间推导出的(即等式(10)),并且对应于Qxx中的每个估计的速度分量的方差。 这等于值为1/ 的权重。
光滑项的观测方程(即式(14))可写成以下形式:
式(16)中每个观测方程的权重通过以下公式计算:
的定义类似。式(18)中, 和 分别是基于对应像素的强度差和深度差的加权函数。这种加权通过减小平滑项在深度或强度梯度上的影响而导致平滑项的各向异性行为[62]。 这里,高斯函数用于 和 。此外,等式(18)考虑了前一步中每个单独的流向量估计的精度[53]。 是与局部运动估计中允许的最大方差相对应的阈值。如果在第一个运动估计步骤中,两个位置(i,j)或(i+1,j)处的两个流向量中的任何一个被低精度地确定,则相应的平滑观测值会得到很大的权重。对剩余的平滑度方程进行加权。正则化步骤计算迭代重加权最小二乘解,以减少异常值的影响。重新加权基于柯西加权函数[21]。 通过将Qxx近似为对角矩阵(忽略非对角元素),方程组(式(13))可分为U、V和W分量,它们彼此独立。这使得计算速度更快。此外,方程系统(式(13))是线性的,但由于鲁棒异常检测,仍然需要进行迭代。
3.3流轨迹
流轨迹生成步骤通过应用基于流向量的跟踪器[13,29,46,55]获得稠密点轨迹。根据到图像空间m=(u,v,w)的估计的流(U,V,W)的投影,在像素空间中构建轨迹。因此,u和v对应于给定场景的光流。w缩放到像素坐标。轨迹在第一帧中的每个像素处初始化,并且随后根据流向量链接到对应的像素(图1,两帧之间的运动对应于流向量),w是W缩放到像素坐标.轨迹在第一帧中的每个像素处初始化,然后根据流向量链接到相应的像素(图1,两帧之间的运动对应的流向量)。特别是,通过迭代地跟随每个像素的 到下一帧的新位置 的运动向量来建立轨迹。由于估计的流向量是浮点数,可能位于像素之间。在这些情况下,轨道在最近的像素位置继续(通过舍入)
显然,并不是所有的轨迹都是从第一帧到最后一帧。 (i)当跟踪导致离开场景(即,超出视频范围)或没有可用的运动信息(即,最后一帧)时,跟踪必须停止。 (ii)当多个轨迹汇聚在同一像素上时, 其中只有一个(随机选取)是连续的。 (三)轨迹不应包含多个不同运动物体的运动。 这对于分割的应用来说尤其如此,分割的目的是分离不同的运动对象。 为了防止这种误差,轨迹在遮挡(例如,图1中的点)和波动的运动边界处结束。 该框架通过检查前向流m和后向流的一致性来检测遮挡 [55]:
如果下一帧像素的新位置处的倒流向量未指向其原始位置,则像素在下一帧中可能不存在(被遮挡)。阈值(等式(20),右侧)说明了较小的估计误差。
运动边界波动的一个简单解决方案是额外停止其附近的轨迹,因此,通过阈值运动梯度大小之和[55]检测运动中的变化:
为了给每个像素分配一条轨迹,每当一个像素没有分配给前一帧产生的轨迹(例如,由于不相容,图1)。在所述轨迹生成过程之后,每个像素属于各自的单个轨迹,并且轨迹上的所有像素属于相同的对象(图2(a))。
3.4 运动分割
提出的运动分割旨在将给定的轨迹(第3.3节)划分为时空段,这些时空段对应于同质性运动的对象或对象组。假设给定的轨迹是无误差的,则每个轨迹都包含随时间变化的像素位置和单个对象的相应运动矢量。当这些通过深度视频的路径可能被中断(例如,遮挡)时,轨迹具有不同的长度并且覆盖不同的时间窗口(图2(a))。虽然长的(例如,覆盖每个帧)轨迹提供丰富的、更全局的运动提示,但是携带较少全局运动信息的短轨迹可能是模糊的(图1)。在这种情况下,诸如深度之类的附加信息允许进一步的分割推理。 在此基础上,提出的框架基于运动和深度相似性对轨迹进行分组。 与我们先前的工作[13]一样,轨迹是用一种有效的基于图的分割算法[10,18]分组的。该分割算法最初是根据像素的颜色和运动相似性对传统的彩色视频进行分割。在所提出的框架中,该算法适用于给轨迹分组,而且分割算法包括两个阶段,一个是基于空间和运动相似性的轨迹超分割,另一个是基于区域(深度和运动)相似性的区域合并。
首先,深度视频中的像素,或者更准确地说轨迹,被表示为图形(4-连通)。 每个轨迹都被视为一个顶点,并通过边与空间上相邻的轨迹相连。 显然,连接的轨迹必须至少共享一个帧。 每个边被分配一个权重 ,它表示每对连接的轨迹 和 的相似性。 所使用的相似性度量有利于每个共享帧中的共同移动()和空间()相似性(类似于[5,13,32]):
这里,i 和 j 的相似度定义在两个轨迹都存在 的帧上。 是轨迹的共享帧的个数。 是最大运动和空间距离的乘积:
如[5]所示,两个时间对应点的最大距离强调运动差异(等式(22)的第一部分)。结果,两个在开始时运动轨迹相似,随着时间的推移而偏离的物体很有可能被分离。然而,这个模型对异常值非常敏感。为了减少这种影响,最大值由平均运动和空间差异加权(等式(22)的第二部分)。在我们之前的工作[13]的扩展中,运动差异包括深度运动 .
定义了相似度度量之后,图形顶点(即轨迹)可以相应地分组到区域中。首先,顶点是它们自己的区域(图2(a))。所有边的列表按升序排序。从最小的边权重开始,根据考虑区域内变化的两个自适应阈值[10,18]合并边。特别是,如果两个区域的内部变化[10]超过边缘权重,则合并两个区域。区域R的内部变化定义为区域最小生成树(MST)的最大边权,该边权随区域大小r放松:
τ是一个影响分割粒度的常量参数(较大的τ产生较大的区域)。这个分割阶段的目标是使用一个小的τ进行过度分割。低成本边缘可以合并(按权重升序排列),以强制最小区域大小。如图2(b)所示,上面描述的分割过程倾向于用不同长度的公共窗口分离类似的轨迹。这些部分必须在第二个分割阶段进一步合并(图2(c))。
第二个分割阶段将以前生成的区域分层合并。这种迭代重分割方案提高了分割算法[18]的鲁棒性,并使用比前一阶段更丰富的区域描述符(即直方图)。同样,轨迹集表示为一个图。以前获得的区域被视为顶点。空间上相邻的区域由边连接,并分配作为相似性边权ωr:
在此,根据每一帧流的直方图 ∈[0,1][18]和每一帧深度的直方图 ∈[0,1]的 距离,在它们的公共时间窗(即共享帧集)中比较两个相连的轨迹组。与[13]中使用的平均深度不同,深度柱状图也考虑了深度分布。与[13]相反, 和 在加权方案中组合 。由于短轨迹的运动信息比长轨道少,因此深度对相似性度量的贡献随公共时间窗的相对长度 l 而变化。为了最终获得比[13]中的迭代次数更少的运动分割,在每次迭代中,深度影响逐渐减小k∈[0,1]。最小区域大小和τ随每次迭代增加一个常数因子[18]
实验结果:
对SR3000 TOF摄像机拍摄的合成场景(图3)和两个真实场景(图9)进行了评估,SR3000 TOF摄像机的分辨率为176×144像素。为了补偿系统变形,应用了[26]中的校准。因此,可以假设等式(4)的针孔相机模型.
本文地址:http://lianchengexpo.xrbh.cn/quote/6311.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多