基于大数据安全技术及深度特征的鲁棒视觉跟踪_新闻_

... 做为一款采用深度定制版的阿里云OS系统,谷蜂AK47采用的源生...

左国才李智勇吴小平苏秀芝

摘要：针对光照变化、目标旋转、背景杂乱等复杂条件下，核相关滤波KCF算法出现目标跟踪漂移或者失败的问题，本文利用卷积神经网络（CNN）对跟踪目标出现光照、旋转、背景杂乱等复杂变化极具鲁棒性的特点，提出了一种基于卷积神经网络的鲁棒视觉跟踪算法CKCF。CKCF算法在考虑大数据安全和隐私保护技术的前提下，利用海量的图片数据集训练VGG模型提取目标深度特征，并融入改进后的KCF跟踪算法中，实验结果表明，与KCF算法相比较，该算法实现了更加鲁棒的跟踪效果，解决了KCF跟踪算法在光照变化、目标旋转、背景杂乱等复杂条件下目标跟踪漂移或者失败的问题。

关键词：机器视觉；深度学习；卷积神经网络；大数据安全技术

Abstract：According to the problem of target tracking drift or failure for nuclear related filter KCF algorithm under the complicated conditions such as the illumination changes background clutter target rotation with the help of Robust characteristics of Convolutional Neural Network （CNN） for light rotation background clutter and other complex changes emerged in tracking target the paper proposes the CKCF robust vision tracking algorithm based on Convolutional Neural Network. Considering data security and privacy protection technology CKCF algorithm uses the picture data set to train VGG model for target feature deep extraction which could be integrated into the improved KCF tracking algorithm. The experimental results show that compared with the KCF algorithm the algorithm has more robust tracking effect and solves the problem of target tracking drift or failure for nuclear related filter KCF algorithm under the complicated conditions such as the illumination changes background clutter target rotation.

Key words： machine vision；deep learning；Convolutional Neural Network；large data security technology

引言

視觉跟踪是计算机视觉研究的热点分支，已推广应用于视频监控、智能交通、无人机等领域[1]。近年来，随着研究的深入，跟踪性能得到了明显改善。但是在跟踪目标受到光照变化、目标旋转、背景杂乱等复杂情况的影响下，要实现鲁棒跟踪仍然面临着巨大的挑战。

近年来，深度学习中的卷积神经网络（CNN ）广泛应用于目标检测、图像分类、语义分割等研究发展中[1] 。相比传统的手工特征，CNN能够提取目标的深层特征，对于复杂场景中目标跟踪具有较强的鲁棒性，并在目标跟踪方面呈现出可观的技术潜能和开发优势。文献[2]基于CNN对当前帧和上一帧进行采样，获取目标和背景的空间、时间特征。文献[3]采用RCNN深度模型，利用CNN模型提取的目标特征来区分出背景及跟踪对象。文献[4]采用CNN两个卷积层、两个降采样层，在全连接层进行综合，得到特征向量。文献[5]基于VGG-NET 深度模型，将输入的目标图片按不同的层次提取特征，用来估计目标的位置。文献[6]应用的深度模型分为共享层和特定层，其中，共享层采用VGG-NET，截取3个卷积层和2个全连接层；特定层由若干域组成，包含了目标正样本和负样本。文献[7]使用VGG-NET模型提取高级语义的目标类别特征，通过选择网络（sel- NET）对输入的特征图进行选择，除去不相干的噪声特征图。卷积神经网络的应用使得目标跟踪的判别力和鲁棒性在效果上达到了更佳。上述文献基于CNN采用不同的模型、策略，设计提出有效的跟踪算法，取得了鲁棒跟踪结果。

与基于CNN的跟踪算法相比，基于相关滤波的跟踪算法在跟踪速度上表现出优异性能。文献[8]提出误差最小平方和滤波器（MOSSE ）跟踪算法，取得600 Frame/s的跟踪速度；文献[9-10] 提出循环结构相关滤波跟踪器（CSK ）、核相关滤波跟踪器（ KCF ）跟踪算法，其跟踪速度则达到了100 Frame/s以上。受其启发，本文将卷积神经网络CNN与核相关滤波跟踪算法KCF相结合，提出一种基于卷积神经网络的核相关滤波跟踪算法C-KCF。实验结果表明，与KCF算法相比，本文的C-KCF算法具有更好的跟踪性能，解决了KCF算法在跟踪过程中因光照变化、目标旋转、背景杂乱而出现跟踪漂移或失败的问题。

1 相关理论

1.1 卷积神经网络

卷积神经网络是一种典型的深度学习架构，从大量数据中主动学习目标特征，具有平移不变性、光照不变性以及对遮挡的鲁棒性等重要特征，并在图像分类、人脸识别、物体检测等领域发挥了重要作用[11]。视觉跟踪是提取目标特征，确定目标在图像（视频帧）中的位置，完成跟踪任务。较强的目标特征表达能够提高目标跟踪的准确性和鲁棒性，而深度学习架构完全满足这种性能需求。在图像和视觉领域，AlexNet[3] 、VGG-Net[4]、ResNet [5]是应用较为成功的一个深度模型，且已取得显著成效。

作为一个多层感知器，CNN中的每个卷积层都可以得到目标图像的不同特征表达。本文采用VGG-Net-19深层卷积网络进行特征提取，其网络结构如图1所示。VGG-Net-19主要由5组卷积层、2个全连接特征层和1个分类层组成。通过在ImageNet上进行预训练，VGG-Net-19中的不同卷积层可以得到不同的特征表达。在较低卷积层，可以详细描述细节特征；在较高卷积层，可以提取目标高级语义信息。

1.2 核相关滤波

2 基于CNN改进KCF目标跟踪算法

对序列图像逐帧进行采样，利用CNN提取样本的深层特征，融入改进后的KCF算法进行目标跟踪，在跟踪过程中在线更新CNN模型的参数。

2.1 训练数据安全及隐私保护

CKCF算法在考虑大数据安全和隐私保护技术的前提下，采用20 000张图片数据集训练VGG模型提取目标深度特征。为了图片数据的安全和隐私保护，采用一种同态加密域图像可逆水印算法[13]，算法设计概述如下：

（1）利用Paillier加密算法对训练目标图像进行相关加密操作，使得目标图像密文数据具有同态运算的相关特性。

（2）利用同态特性在加密域中直接进行K层小波变换，将水印嵌入到K层高频子带中，实现同态加密域中的图像可逆水印。

2.2 特征提取与定位

利用海量的图片数据集训练VGG模型提取目标深度特征，在目标跟踪时设计提供了参数在线更新，以适应目标尺度大小、变形、光照等復杂变化。根据CNN卷积特征图，利用VGG-Net[4]对目标外观进行编码。设C为特征图，Vi是采用特征映射，第i个位置的特征向量，研究推得数学公式如下：

在跟踪过程中，利用训练好的VGG-Net-19卷积神经网络模型[4]提取目标深层特征，利用改进后的基于核相关的快速跟踪方法KCF进行目标跟踪。因此，给定跟踪目标的感兴趣区域（ROI），利用VGG-Net-19得到其在第l层的卷积特征图cl∈RM×N×D，利用（4）式可以得到其在第l层上的相关响应图的数学表述如下：

2.3 目标跟踪算法

利用训练好的VGG-Net-19模型进行特征提取，融入改进后的KCF算法中实现鲁棒跟踪。算法的执行步骤可分述如下：

输入给定目标初始位置p0，VGG-NET-19模型，序列图像

输出目标深度特征向量，目标跟踪模型

（1）以P（xt-1，yt-1）位置为中心，选择出第t帧图像感兴趣的目标图像ROI，使用式（1）和式（5）经过运算后可求得提取的特征。

（2）以新的位点Pt（xt，yt）为中心选出目标图像ROI，提取卷积特征。

（3）将提取到的特征融入到改进后的KCF算法中，使用公式（4）计算最大响应值，确定目标状态。

（4）选择置信度高的跟踪结果更新模型。

这里，关于提取卷积层目标特征，研发可得如下代码：

size_wind = size（cos_window）；

img_obj= single（im）；

[JP5]img_obj= imResample（img net.meta.normalization. imageSize（1：2））；

norm_avg=net.meta.normalization. norm_avgImage；

if numel（norm_avg）==3

norm_avg=reshape（norm_avg，1，1，3）；

end

img_obj= bsxfun（@minus img norm_avg）；

re_cnn= vl_simplenn（net，img）；

fea_cnn = cell（length（layers） 1）；

for ii = 1：length（layers）

x = res（layers（ii））.x；

x = imResample（x size_wind（1：2））；

if ～isempty（cos_window）

x = bsxfun（@times x cos_window）；

end

fea_cnn{ii}=x；

end

3 测试序列及实验结果分析

选用基准公开的Visual Tracker Benchmark OTB50数据集中的视频序列作为实验对象，利用Matlab2017软件进行仿真实验，使用深度学习框架Matconvnet工具箱。操作系统为Windows7，64位，CPU为2.6 G，内存为4 GB，算法的平均处理速度约为2 Frame/s 。

为了验证本算法的鲁棒性，研究选取了具有挑战性的视频序列进行跟踪，获选的视频序列中包含了背景杂乱、旋转、外观变换、光照变化等情况。表1即给出了研究中的部分实验结果。

本文采用跟踪成功率和跟踪精度两个评价指标来进行定量分析。对于6组光照、旋转、杂乱等变化的视频序列，本文算法的跟踪成功率和精度值要高于KCF算法，这就验证说明了复杂环境下，本文算法的稳健性要优于KCF算法。算法运行结果如图2所示。

算法利用VGG-Net-19中的卷积层Conv5-4、Conv4-4、Conv3-4、Conv2-2进行不同组合，不同特征组合下的跟踪性能分析，则如图3所示。

4 结束语

针对大数据安全及视觉跟踪中KCF算法的稳健跟踪问题，提出了一种基于CNN与KCF的目标跟踪算法CKCF。该算法在考虑图像数据安全和隐私保护的前提下，采用海量图像数据训练数据模型，利用CNN对跟踪目标出现光照、旋转、遮挡等复杂变化极具鲁棒性的特点，来提取目标深度特征，较好地解决了KCF跟踪算法在光照变化、目标旋转、目标遮挡等复杂条件下的稳健跟踪问题。

参考文献

[1] SIMONYAN K ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv preprint arXiv：1409.1556 2015.

[2] FAN Jialue XU Wei WU Ying et al. Human tracking using convolutional neural networks[J]. IEEE Transactions on Neural Networks，2010，21（10）：1610-1623.

[3] HONG S，YOU T，KWAK S，et al. Online tracking by learning discriminative saliency map with convolutional neural network [J]. arXiv preprint arXiv：1502.06796 2015.

[4] LI Hanxi LI Yi PORIKLI F. Robust online visual tracking with a single convolutional neural network [M]//CREMERS D REID I SAITO H et al. Computer Vision —ACCV 2014. ACCV 2014. Lecture Notes in Computer Science. Cham：Springer，2014，9007：194-209.

[5] MA Chao HUANG Jiabin，YANG Xiaokang，et al. Hierarchical convolutional features for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.Washington DC USA：IEEE 2015：3074-3082.

[6] NAM H，HAN B. Learning multi-domain convolutional neural networks for visual tracking[J]. arXiv preprint arXiv：1510.07945，2016.

[7] WANG Lijun，OUYANG Wanli，WANG Xiaogang，et al. Visual tracking with fully convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago，Chile：IEEE，2015：3119-3127.

[8] BOLME D S BEVERIDGE J R DRAPER B A，et al. Visual object tracking using adaptive correlation filters[C]//IEEE Conference on Computer Vision and Pattern Recognition. San Francisco CA USA：IEEE，2010：2544-2550.

[9] HENRIQUES J F CASEIRO R MARTINS P，et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//European Conference on Computer Vision. Florence Italy：Springer，2012：702-715.

[10]HENRIQUES J F CASEIRO R MARTINS P，et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence，2015，37（3）：583-596.

[11]LECUN Y BENGIO Y HINTON G. Deep learning[J]. Nature，2015，521（7553）：436-444.

[12]SHEN Qiu，YAN Xiaole，LIU Linfeng，et al. Multi-scale correlation filtering tracker based on adaptive feature selection[J]. Acta Optica Sinica，2017，37（5）：0515001.

[13]項世军，罗欣荣，石书协. 一种同态加密域图像可逆水印算法[J]. 计算机学报，2016，39（3）：571-581.