智能视频处理成为视频监控的“救命稻草”
智能视频源自计算机视觉技术,计算机视觉技术是人工智能研究的分支之一,它能够在图像及图像内容描述之间建立映射关系,从而使计算机能够通过数字图像处理和分析来有限理解视频画面中的内容。运用智能视频分析技术,当系统发现符合某种规则的行为(如定向运动、越界、游荡、遗留等)发生时,自动向监控系统发出报警信号(如声光报警),提示相关工作人员及时处理可疑事件。
智能视频算法的实现
智能视频技术实现对移动目标的实时检测、识别、分类以及多目标跟踪等功能的主要算法分为以下五类:目标检测、目标跟踪、目标识别、行为分析、基于内容的视频检索和数据融合等。
目标检测(Object Detection)是按一定时间间隔从视频图像中抽取像素,采用软件技术来分析数字化的像素,将运动物体从视频序列中分离出来。运动目标检测技术是智能化分析的基础。常用的目标检测技术可以分为背景减除法(Background Subtraction)、时间差分法(Temporal Difference)和光流法(Optic Flow)三类。
背景减除法利用当前图像与背景图像的差分检测运动区域。背景减除法假设视频场景中有一个背景,而背景和前景并未给出严格定义,背景在实际使用中是变化的,所以背景建模是背景减除法中非常关键的一步。常用的背景建模方法有时间平均法、自适应更新法、高斯模型等。背景减除法能够提供相对来说比较完全的运动目标特征数据,但对于动态场景的变化,如光线照射情况、摄像机抖动和外来无关事件的干扰特别敏感。
时间差分法充分利用了视频图像的时域特征,利用相邻帧图像的相减来提取出前景移动目标的信息。该方法对于动态环境具有较强的自适应性,不对场景做任何假设,但一般不能完全提取出所有相关的特征像素点,在运动实体内部容易产生空洞现象,只能够检测到目标的边缘。当运动目标停止时,一般时间差分法便失效。 光流法通过比较连续帧为每个图像中的像素赋予一个运动矢量从而分割出运动物体。
光流法能够在摄像机运动的情况下检测出独立的运动目标,然而光流法运算复杂度高并且对噪声很敏感,所以在没有专门硬件支持下很难用于实时视频流检测中。
目标跟踪(Object Tracking)算法根据不同的分类标准,有着以下两种分类方法:根据目标跟踪与目标检测的时间关系分类和根据目标跟踪的策略分类。 根据目标跟踪与目标检测的时间关系的分类有三种:
一是先检测后跟踪(Detect before Track),先检测每帧图像上的目标,然后将前后两帧图像上目标进行匹配,从而达到跟踪的目的。这种方法可以借助很多图像处理和数据处理的现有技术,但是检测过程没有充分利用跟踪过程提供的信息。
二是先跟踪后检测(Track before Detect),先对目标下一帧所在的位置及其状态进行预测或假设,然后根据检测结果来矫正预测值。这一思路面临的难点是事先要知道目标的运动特性和规律。三是边检测边跟踪(Track while Detect),图像序列中目标的检测和跟踪相结合,检测要利用跟踪来提供处理的对象区域,跟踪要利用检测来提供目标状态的观察数据。
根据目标跟踪的策略来分类,通常可分为3D方法和2D方法。相对3D方法而言,2D方法速度较快,但对于遮挡问题难以处理。基于运动估计的跟踪是最常用的方法之一。
目标识别(Object Recognize)利用物体颜色、速度、形状、尺寸等信息进行判别,区分人、交通工具和其他对象。目标识别常用人脸识别和车辆识别。
视频人脸识别的通常分为四个步骤:人脸检测、人脸跟踪、特征提取和比对。人脸检测指在动态的场景与复杂的背景中判断是否存在面像,并分离出这种面像。人脸跟踪指对被检测到的面貌进行动态目标跟踪。常用方法有基于模型的方法、基于运动与模型相结合的方法、肤色模型法等。
人脸特征提取方法归纳起来分为三类:第一类是基于边缘、直线和曲线的基本方法;第二类是基于特征模板的方法;第三类是考虑各种特征之间几何关系的结构匹配法。单一基于局部特征的提取方法在处理闭眼、眼镜和张嘴等情景时遇到困难,相对而言,基于整体特征统计的方法对于图像亮度和特征形变的鲁棒性更强。人脸比对是将抽取出的人脸特征与面像库中的特征进行比对,并找出最佳的匹配对象。
车辆识别主要分为车牌照识别、车型识别和车辆颜色识别等,应用最广泛和技术较成熟的是车牌照识别。 车牌照识别的步骤分别为:车牌定位、车牌字符分割、车牌字符特征提取和车牌字符识别。
车牌定位是指从车牌图像中找到车牌区域并把其分离出来。字符分割是将汉字、英文字母和数字字符从牌照中提取出来。车牌特征提取的基本任务是从众多特征中找出最有效的特征,常用的方法有逐像素特征提取法、骨架特征提取法、垂直水平方向数据统计特征提取法、特征点提取法和基于统计特征的提取法。车牌字符识别可以使用贝叶斯分离器、支持向量机(SVM)和神经网络分类器(NNC)等算法。
行为分析(Behavior Analysis)是指在目标检测、跟踪和识别的基础上,对其行为进行更高层次的语义分析。现有的行为分析技术根据分析的细节程度和对分析结果的判别要求可以分为三类:第一类使用了大量的细节,并往往使用已经建立好的数据进行分析而较少使用目标的时域信息。基于人脸、手势、步态的行为分析方法属于这一类;第二类是将目标作为一个整体,使用目标跟踪的算法来分析其运动轨迹以及该目标与其它目标的交互;第三类是在前两类的基础上做一个折中,它使用时域和空域的信息,分析目标各部分的运动。
基于内容的图像检索技术是由用户提交检索样本,系统根据样本对象的底层物理特征生成特征集,然后在视频库中进行相似性匹配,得到检索结果的过程。现有基于内容的检索方法主要分为:基于颜色的检索方法、基于形状的检索方法和基于纹理的检索方法等。数据融合是将来自不同视频源的数据进行整合,以获得更丰富的数据分析结果。