海量监控视频分级摘要生成系统研究_新闻_

...道交通车载无线视频监控系统解决方案

马元元+李向伟+刘艳飞

摘要：针对海量监控视频的存储、浏览、检索问题，提出一种适合于海量监控视频的分级摘要生成算法，生成的分级视频摘要体积小，按照内容重要性进行排序，能减少海量监控视频摘要的存储空间，提高海量监控视频浏览和检索速度。基于上述海量监控视频摘要生成算法，设计了一个建立在Hadoop上的海量监控视频分级摘要生成系统，为海量监控视频摘要生成提供分布式存储和并行化运算环境，进一步解决了存储问题，提高了运算速度。

关键词：海量监控视频；分级摘要生成；压缩域；关键帧

中图分类号： TN911?34 文献标识码： A 文章编号： 1004?373X（2017）13?0034?04

Abstract： For the storage， browse and retrieval problems existing in massive surveillance video， a hierarchical summary generation algorithm suitable for massive surveillance video is proposed. The generated hierarchical video summary with small size is ranked according to the content importance to save the summary storage space of the massive surveillance video， and improve the browse and retrieval speed of the massive surveillance video. On the basis of the summary generation algorithm of massive surveillance video， a Hadoop?based hierarchical summary generation system of massive surveillance video was designed， which can provide the distributed storage and parallel computing environments for summary generation of massive surveillance video， and solve the storage problem and improve the system computing speed further.

Keywords： massive surveillance video； hierarchical summary generation； compressed domain； key frame

0 引言

随着物联网技术的普及和平安城市、智慧城市的推进，商场、道路、学校、工厂、家庭中使用了大量视频监控设备，产生了海量的监控视频，如何实现海量监控视频的快速浏览，以及在海量视频中快速检索出需要的视频资料，已经成为急需解决的问题。引入视频摘要技术，分析视频的内容与结构，从原始视频中提取出关键信息，浓缩成可充分体现视频语义内容的视频摘要并构建概要生成系统已经成为一个研究热点。文献[1]对原视频中的活动事件进行提取，采用空间叠加的方式将不同时间段的活动事件压缩到一个短视频中，短视频包含原视频的所有活动事件，通过浏览短视频达到快速浏览原视频的目的。文献[2]对面向云平台的视频摘要技术进行研究，基于贪心算法和遗传算法提取监控视频摘要，并利用云端进行存储。文献[3]提出一种基于运动人体检测的视频摘要算法，从运动区域底层特征出发，将HOG特征和LBP特征结合，并通过PCA降维，最终改进了基于HOG特征的人体检测算法。文献[4]研究了交通监控视频摘要生成技术，将人们关注的交通事件定义为异常事件，对给定视频中的视频帧提取特征结合带隐变量的支持向量机逐帧检测视频中的目标，匹配检测结果得到视频中的运动轨迹，将其表示为运动事件，分析其中异常事件的特点，结合Bootstrapping的随机森林模型做分类，完成基于关键区域的视频摘要提取算法[4]。

监控视频除具有海量的特点，还存在信息冗余多，超过70%上的冗余；信息密度底，连续不间断监控过程中可能有用的数据仅仅有一两秒；需要的处理速度快，遵循“1 s定理”；在监控视频摘要的使用方面，浏览和检索通常按照摘要排列的顺序从前往后，找到目标内容后，浏览、检索即可停止。根据以上监控视频及摘要使用特点，本文面向压缩域提出了一种分级摘要生成算法，生成空间占用少、查询效率高的静态视频摘要，将关键帧按照重要程度从高到低顺序排列，生成分级视频摘要；在分级摘要基础上，基于Hadoop设计了一个海量监控视频分级摘要生成系统。

1 海量监控视频分级摘要关键技术

视频信息有着独立的结构。一般说来，组成一段视频的单位依次为场景、镜头、视频帧。视频摘要是指利用计算机技术分析视频结构、理解视频内容，并从原始数据中选取具有代表性的、有意义的部分，将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略[5]。视频摘要分为静态视频摘要和动态视频摘要两种。静态视频摘要主要分析视觉内容，不考虑音频信息，它的建构与表现都相当灵活，占用更少的存储空间，可以更灵活的组织以用于浏览和索引。在静态视频摘要生成系统中要着重解决镜头分割、关键帧提取、数据冗余处理几个方面的问题。

1.1 面向压缩域的镜头分割与关键帧提取

在H.264国际标准中，视频在传输、存储中均采用压缩形式。面向非压縮域的镜头检测和分割方法在对视频进行计算前需要解压缩，计算完成后传输前又要进行压缩，尤其是在面对海量数据时，对速度影响较大。面向压缩域的视频镜头检测和分割算法直接从压缩视频数据流中提取用于镜头分割的特征，省去解压步骤，加快了检测速度。

1.1.1 帧的分类

在H.264国际标准中，视频帧被分成一个个的组（Group of Picture，GoP）。压缩编码时，视频帧序列被压缩成为帧、帧或者帧。帧又称为内部编码，通常是每个GoP的第一个帧，它是一个全帧压缩的编码帧，仅用帧的数据就可重构完整图像完成解码[6]；帧被称为预测编码，需要参考前面的帧完成解码；帧被称为双向预测编码，需要参考前后的帧完成解码。

1.1.2 DCT变换

DCT（Discrete Cosine Transform）编码属于正交变换编码，主要作用是将图像矩阵的时域信号变换到系数空间的频域信号上。正交变换前后图像的信息量没有损失，所以可以通过反向变换得到原始图像。由于在空间上相关性强的信号变换到频域上之后，某特定区域的能量常常被集中在一起，所以图像经过变换后，对大多数图像，将原空间的图像数据在新的空间中得到集中，而且大多数变换系数很小，很多接近0，所以只要删除接近0的系数，粗量化较小的系数，将包含图像主要信息的系数保留，就能实现压缩编码。解码时，因为主要信息得以保留，所以图像基本不会失真。

由于对整个图像进行DCT变换计算量太大，所以通常将图像分解为8×8的子块。先对8×8个子块进行余弦变换后得到8×8个变换系数，其中集中在左上角的是低频分量，数值最大的元素在第一行第一列，叫做DC系数，即直流系数，反映8×8图像子块的平均值，其他63个元素是AC系数，即交流系数。得到AC和DC系数后，再依据压缩需求选取DC系数和部分AC系数进行量化，最后将变换得到的量化DCT系数进行编码和传送，完成图像压缩。解码时，先解码DCT系数，然后求逆，并转化为8×8样本像块（使用二维DCT反变换），最后将这些块组合在一起还原为单一图像。

1.1.3 面向压缩域的镜头分割与关键帧提取方法

根据MPEG压缩域国际标准，帧是基础帧，蕴含了视频的主要信息。帧在压缩域体现为DCT系数，DCT系数中的DC系数是视频的主要信息携带者[6]。一方面由于人的视觉系统不是对任何变化都能感知到，另外一方面，海量监控视频摘要分析是对视频的一种近似智能化分析与处理，视频分割允许一定范围内的误差，所以认为在镜头分割时可以首先在MPEG压缩域中提取帧，然后在帧中提取DC系数，满足镜头分割的需要。

1.2 分级摘要生成

粗糙集RS（rough sets）理论由波兰学者Pawlak在1982年提出[7]，是一种刻画不完整性和不确定性的数学工具，能有效地分析和处理不精确、不一致、不完整等各种不完备信息，并从中发现隐含知识，揭示潜在规律[8]。

知识库中的知识并非同等重要，有很大一部分是冗余的。属性约简是粗糙集理论的核心内容之一，其主要思想是：在保持相对分类能力不变的条件下，删除那些冗余的、不必要的属性，以达到知识简化的目的[9]。视频数据是非结构性数据，冗余数据量大，尤其是监控视频大约占到总体数据70%以上，大量冗余数据制约了监控视频分析技术的性能、结果，对监控视频数据的约减、去冗是监控视频数据处理不可缺少的部分。使用粗糙集理论可以在不需要先验知识的前提下，对属性进行划分，可大大消除冗余数据，并在此基础上进行信息系统模型的建立及后续工作。

核代表了信息系统中不可约简的属性，对应到视频序列为不可约简的视频帧，即关键帧。由于重要的镜头总是要以更多的冗余帧来体现，因此，冗余的帧越多，说明镜头的内容越重要，即视频的重要程度与冗余的帧成正比。据此，可根据约简的帧的数目给视频内容排序，依据排序后的结果即可产生分级的视频摘要。用户根据需要瀏览、检索生成的视频摘要，排在前面的总是最重要的内容。

2 海量监控视频分级摘要生成算法

在对系统关键技术分析的基础上，设计海量监控视频摘要生成系统的模型为：原始监控视频流→提取帧→提取帧DCT系数→提取DC系数→聚类视频流镜头→依据镜头的DC系统构造信息系统→依据粗糙集理论对信息系统进行约简→产生没有冗余的帧→根据约简数目排序→产生分级视频摘要。如图1所示。

Step1：提取DCT，DC系数

在压缩域中，帧携带了主要信息。在帧的DCT系数中，DC系数代表了最多的信息量。直接在原始压缩视频流中提取帧，并且依次提取DCT系数与DC系数。其过程可表示如下：

式中表示原始视频序列。

Step2：数据预处理

DC系数携带的信息完全可满足视频分割需要，但由于视频数据存在巨大的数据冗余，因此，在使用DC系数进行分析处理前，必须进行数据预处理，尽可能减少冗余数据，提高数据分析的实时性。

Step3：镜头分割

每个镜头包含有若干连续的图像帧，它是视频结构化的基础物理单元。进行聚类分析与关联分析，根据视频相邻帧之间数据的相关性将视频帧划分到对应的镜头，为下一步摘要的生成提供科学依据。其过程可用式（4）～式（6）表示：

Step4：视频摘要提取

首先根据式（3）的结果建立信息系统模型，引入粗糙集理论进行约简，最后依据约简结果排序，产生面向用户的分级视频摘要。

3 海量监控视频分级摘要生成系统

3.1 Hadoop技术

Hadoop是由一系列的软件库组成的框架。这个框架适合用作大数据处理，其中分布式文件系统HDFS（Hadoop Distribute File System）是Hadoop的基石，负责数据存储。HDFS中的节点分为两类：名字节点（NameNode）和数据节点（DataNode）。其中，名字节点负责存储文件系统的元数据，存储文件与数据库映射，提供文件系统的全景图，数据节点负责存储块数据。HDFS具有高效、高可靠、可伸缩、易于访问等特点，为PB级海量数据提供存储，以并行的方式工作，自动保存数据的多个副本，自动将失败的任务重新分配，以流的形式访问文件系统中的数据，能有效解决监控系统负载过重、容灾能力弱、扩展能力弱等问题。Hadoop框架中另有其他专门模块负责计算、资源管理等。

3.2 海量监控视频分级摘要生成系统总体设计

监控视频的分级视频摘要主要用作海量监控视频的快速浏览、检索，要进行案件侦破、事实还原，原始视频必不可少，孤立的视频摘要和原始视频意义不大，故海量视频摘要生成系统在设计时还要同时考虑原始视频的收集和存放、浏览等问题。鉴于此，基于Hadoop建立海量视频分级摘要生成系统，可实现海量监控视频及分级摘要分布式存储，摘要生成，视频浏览的并行处理等。系统具体设计如图2所示。

海量监控视频分级摘要生成系统分为海量原始监控视频生成子系统、海量监控视频分级摘要生成子系统、海量监控视频存储子系统、海量监控视频浏览子系统，共4个子系统。

海量原始监控视频生成子系统从摄像头采集数据，并压缩成符合H.264标准的原始监控视频。海量监控视频分级摘要生成子系统使用本文提出的算法生成海量监控视频分级摘要。海量监控视频存储子系统存储原始监控视频和生成的分级视频摘要，是一个HDFS。其中，视频管理服务器是名字节点，管理原始视频和视频摘要的存储位置，原始监控视频和监控视频分级摘要存储在数据节点中。海量监控视频浏览子系统提供监控视频分级摘要和原始监控视频的浏览功能。由于本文提出的海量监控视频分级摘要生成算法建立在H.264压缩域基础之上，所以在4个子系统间流动的也是符合H.264标准的压缩文件。因为HDFS没有视频文件处理能力，给客户端浏览带来不便，所以系统必须添加一个流媒体文件服务器，以便HDFS中的视频文件能够被处理和观看。

系统运行时，海量原始监控视频生成子系统将获取的原始监控视频存入海量监控视频存储系统；海量监控视频分级摘要生成系统从海量监控视频存储系统获取原始监控视频，生成分级视频摘要，然后将生成的分级视频摘要存储在海量监控视频存储系统中；海量监控视频浏览系统按照用户的需求调用监控视频分级摘要或原始监控视频进行浏览。

4 结论

对H.264标准压缩域视频结构进行分析，通过提取DCT系数、DC系数，对压缩域的帧进行聚类，建立信息系统，通过粗糙集理论去除冗余，提取关键帧的方法生成监控视频分级摘要，使用内容分析的方法克服传统摘要提取的随意性、主观性、片面性，生成的摘要占用存储空间小、浏览和检索效率高。并在此基础上设计了一个基于Hadoop集群的海量监控视频分级摘要生成系统，从系统架构的角度进一步解决海量监控视频存储问题，提高海量监控视频分级摘要生成系统的运算速度。目前，该摘要生成系统还没有包括摘要信息检索功能，后续将在这个方面继续努力。

参考文献

[1] 周小龙.监控视频摘要生成技术的研究与实现[D].重庆：重庆大学，2010.

[2] 杨军杰.面向云平台的视频摘要技术的研究与实现[D].北京：北京邮电大学，2014.

[3] 张慧.基于运动人体检测的监控视频摘要[D].合肥：安徽大学，2014.

[4] 袁冠红.基于异常事件检测的交通监控视频摘要[D].杭州：浙江大学，2015.

[5] 王娟，蒋兴浩，孙锬锋.视频摘要技术综述[J].中國图象图形学报，2014（12）：1686?1695.

[6] 李向伟.压缩域视频检索与挖掘关键技术研究[D].兰州：兰州理工大学，2010.

[7] PAWLAK Z. Rough sets [J]. International journal of computer and information science， 1982， 11（5）： 341?356.

[8] GRZYMALA?BUSSE J W， PAWLAK Z， SLOWINSKI R， et al. Rough sets [J]. Communication of ACM， 1995， 38（11）： 88?95.

[9] 李向伟，康毓秀.粗糙集理论在视频分析中的应用[J].软件，2014（9）：1?5.

[10] 刘晓彤.高效视频编码中自适应插值滤波器的研究[D].长春：吉林大学，2014.