华中科技大学硕士学位论文
华
中
科
技
大
硕
士
位
论
文
1 绪 论
1.1 研究背景
随着经济和科技技术的发展,人们希望计算机能够更加智能化和友好化,而对于 大量的视频数据,需要构建一种自动化的检测方法,来对视频中的内容和语义进行分 析,更好的为经济发展和社会和谐安全服务。在这个大背景下,计算机视觉领域得到 了全面的发展,特别是在视频内容分析和高层语义表示方面,是一个非常有挑战性的 课题,而这方面的应用也在逐渐广泛起来。
在之前的实验室 863 项目中,研究的人类表达情感和肢体动作之间的关系,这个 其实也是行为识别的一个问题。提取视频中的高层语义是一个具有挑战性的话题,但 若在这个方向上有长足的进步,对推动计算机智能化和维护社会秩序有着很重要的意 义,比如在学校社区安装的摄像头,监控和检测偷盗的人的异常行为;在城市公路系 统中,检测违规行驶操作(闯红灯,违规掉头,违规压线等)的汽车;在商场或者地 铁站检测人流中的异常事件,即使给出人工干预,可以有效地防止重大安全事故的产 生;同样,在幼儿园门口,可以实时监控异常行为的人的出现,防止幼儿被害的重大 恶性事件的发生。
分析视频中的行为和异常事件的检测,是一个相当有挑战性的问题,但随着计算 机智能化,这个问题也成为研究热点,对人类发展和构建和谐社会有着非常重要的意 义。而这个课题,也涵盖了许多计算机视觉的其他领域的成果和研究,如跟踪、检测 算法,统计学模型等方法,因此,研究高层语义的行为识别是非常有意义的。
在对视频的高层语义的分析中,主要出现的是两个方面的内容,一个是从整体的 视频内容作为切入点,来分析群体行为的趋势和变化,一般用来检测异常事件的发生; 另一方面,是从个体的行为模式来作为切入点,来分析个体行为表达的内容,一般用 来检测单一对象的行为或者几个对象之间表达的动作语义。前者是分析视频的群体行 为趋势,如检测道路的路况,判断某一个车辆对象是否违规操作;在商场中群体移动, 判断是否存在异常人物引用群体行为异常;判断广场上是否一群人在斗殴等等。后者 是分析某个人在路上行走或者跳跃,这个人是表达的是什么动作;两个人在一起时握
手还是拥抱等;这里重点关注的是个体的具体行为和表达的语义。
1.2 国内外发展现状
在动作识别方面,先前的工作大致可以分为如下的方向:基于跟踪的方法[1,2], 基于流的方法 [3,4,5], 基于时空形状的方法 [6,7,8,9] 和基于关键点检测的方法 [10,11,12]。
基于跟踪过程的方法,是需要处理视频中的每一帧图像和从背景中分割出最感兴 趣的对象区域,最典型的是用一个模型来匹配当前帧。通过跟踪对象的运动的时间维 度,可以产生模型运动轨迹的参数,通过比较这个轨迹模型与目标时空模式的差别, 来判断是否为特定的动作。在论文[1]中,主要运用的是表演者的外观模型的描述信息, 首先在已标注的运动扑捉数据集上,在二维图像空间中跟踪人体的轨迹,同时,把这 个人体运动的轨迹同步到三维空间中,然后利用三维空间中的人体的躯干信息建立模 型,用于动作识别。此种算法需要在已标注的数据集上进行,需要对二维和三维的数 据进行同步,而在普通的数据集上需要先建立三维模型。在算法的具体方案中[2],需 要对人体的图像序列进行跟踪,需要对身体的每个关节点建立估计模型,然后通过三 维空间中的骨架信息,来建立子空间模型,来识别人体的运动动作。这种方法的局限 性很大,首先需要对人体的支架建立模型,需要记录跟踪每个点在空间中的轨迹信息, 利用子空间之间的角度信息来进行动作识别。基于跟踪过程的方法,在动作识别方法 的发展起到了重要的作用,但基于跟踪的方法,在实时复杂的数据集上,无法准确的 跟踪到人体,而且无法准确的建立所有运动的模型,但这种方案对背景的依赖性不强, 可以适应各种背景情况。
基于流的方法,主要的研究点在于视频序列中的变化,通过研究外力对模型的影 响来识别特定的模型。Efros 等[3]在距离的层面来结合视频的流模板模型来进行行为 的识别,但这就需要背景的变化不能够太大,对于光流的计算要求准确,同时,视角 不能够改变,而对于表演者与摄像头之间的距离也不能够存在很大的变动。Ke[4]等 利用视频中的空间块的特征信息,利用局部描述算子的思想,他的做法是将二维的特 征推广到三维的空间信息,在静态图像中的对象检测的方法,运用到视频算法中,在
本文地址:http://lianchengexpo.xrbh.cn/quote/8732.html
迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多