基于卷积神经网络的人脸性别识别
   来源:现代电子技术     2021年01月20日 08:50

...rflow实现卷积神经网络,用于人脸关键点识别

汪济民 陆建峰

摘 要: 人脸性别识别是人脸识别的重要组成部分,但是人脸识别容易受到光照、旋转、平移、遮挡等因素的影响。将卷积神经网络引入到人脸性别识别中,该网络的结构具有稀疏连接和权值共享的优点,卷积层和采样层交替进行,简化了模型的复杂度。实验表明,该方法的网络结构有效地克服了旋转、遮挡等因素的影响,具有较好的鲁棒性。

关键词: 人脸性别识别; 卷积神经网络; 稀疏连接; 权值共享

中图分类号: TN911.73?34 文献标识码: A 文章编号: 1004?373X(2015)07?0081?04

0 引 言

随着计算机等高新技术的快速发展,计算机已越来越走向数字化、网络化和智能化。生物特征识别技术也以此为基础迅速发展,人脸包含性别、身份、种族、年龄等大量信息,具有自然性、方便性和非接触性等优点,是人类最明显,最重要的生物特征。如何利用计算机自动识别人脸,近年来已发展成为模式识别和计算机视觉领域非常重要的研究课题之一。

人脸性别识别是基于人脸身份识别开展起来的,在安防领域和视频监控中有着重要的应用。目前高级的人脸识别系统可以首先判断出性别,缩小搜索范围,然后识别出被识别者是谁,这使得人脸识别的检索效率和准确率都会有所提高,从而使人脸身份识别和性别识别互相促进,整个人脸识别更加全面,更加丰富。人脸性别识别也作为人机交互的特殊一部分,通过计算机识别用户性别,可以极大地改善呆板、不方便的人机交互环境,为用户提供更为人性化的服务。在一些大型商场安装人脸性别识别系统,用于商品的视频检索、商场的客流监控,可以给用户提供相应的服务,可以更好地促进商品销售。

正因为人脸性别识别在身份认证、视频监控、人机交互以及机器人视觉中存在潜在的应用而备受关注。

1 相关工作

人脸性别识别的研究始于20世纪90年代,由国外一些大学或者研究机构最先开始研究。人脸性别识别的工作流程如图1所示,研究的关键问题在于特征提取和分类器的选择。B.A.Golomb等人首先利用全连接的两层神经元网络作为分类器,通过对分类器训练,识别出人脸图像。之后,有人提出了将BP神经网络、RBF神经网络、人工神经网络、特征脸和分类器相结合[1]等方法应用于人脸性别识别中。但是这些神经网络方法都存在着网络结构模型复杂、训练时间长、鲁棒性差等缺点。

卷积神经网络是将人工神经网络和深度学习技术相结合而产生的新型人工神经网络方法,是为了识别二维形状而设计的多层感知器,具有局部感知区域、层次结构化、特征抽取和分类过程结合的全局训练的特点。Fukushima提出的基于神经元之间的局部连接型和层次结构组织的Neocogition模型是卷积神经网络的第一个实现网络。LeCun等人设计并采用基于误差梯度的算法训练了卷积神经网络[2],在一些模式识别领域取得非常好的性能,并且给出了卷积神经网络公式的推导和证明[3]。卷积神经网络已经成功地应用到了文档分析[4]、人脸检测[5]、语音检测[6]、车牌识别[7]、手写数字识别[8]、视频中的人体动作识别[9]、人脸特征点的检测[10]等各个方面。

图1 人脸性别识别流程图

卷积神经网络具有如下优点:

(1)输入图像和网络的拓扑结构能很好地吻合,可以避免对图像复杂的前期预处理,直接输入原始图像。

(2)特征提取和模式分类同时进行,并且一个计算层由多个特征映射组成,可以通过学习训练优化得到。

(3)神经元之间的连接是非全连接,且同一层中某些神经元之间的连接权值是共享的,这种非全连接和权值共享的网络结构降低了网络模型的复杂度,减少了权值的数量。

2 卷积神经网络

卷积神经网络包括前向传播和反向传播,卷积层和采样层交替进行。卷积层后有一个下采样层来减少计算时间和建立空间与结构上的不变性。

前向传播就是从输入参数到输出结果计算一次。上一层的输出就是当前层的输入,然后通过激活函数,计算出当前层的输出,逐层传递下去,所以当前层的输出可以表示为:

[xl=f(Wlxl-1+bl)] (1)

式中:[l]代表层数;[W]表示权值;[b]是一个偏置;[f]是激活函数,常见的激活函数为sigmoid或者双曲正切函数(tanh)。

反向传播就是从前向传播计算出的结果和给定样本的标签做误差运算,考虑平方差损失函数,对于包含[c]个类别,[N]个训练样本的多分类问题,误差函数表示为:

[EN=12n=1Nk=1c(tnk-ynk)2] (2)

式中:[tnk]表示第[n]个样本对应的标签的第[k]维;[ynk]表示第[n]个样本对应的网络输出的第[k]个输出。

反向传播会更新卷积层,上一层的特征映射和一个可以训练的核进行卷积运算,卷积运算的结果经过激活函数后的输出形成了这一层的特征映射。每一个输出映射可能与上一层的几个特征映射的卷积有关系。卷积层的一般形式为:

[xlj=fi∈Mjxl-1i*klij+blj] (3)

式中:[l]代表层数;[k]是卷积核;[Mj]表示输入特征的一个选择;[b]是一个偏置。

下采样操作并没有改变特征映射的数目,只是将特征映射的大小变小。如果采样算子大小为[n×n,]那么经过一次下采样,特征映射的大小变为原来特征的[1n。]下采样的一般形式为:

[xlj=f(βljdown(xl-1j)+blj)] (4)

式中down(·)表示一个下采样函数。

3 卷积神经网络结构

卷积神经网络的结构模型如图2所示,不包括输入层,由七层组成,每一层都包括可以训练的参数(权值)。输入层是32×32的人脸像素矩阵,计算流程在卷积层和下采样层之间交替进行。卷积层和下采样层的连接方式为随机条件下的非全连接,目的在于打破其相关性。每个卷积层所采用卷积核的大小都是5×5,采样层的采样窗口的大小为2×2。采样函数为max?pool最大池化进行采样,因为最大池化更合适人脸特征的下采样。激活函数采用纠正线性单元(Rectified Linear Units,ReLU)[10],而不是常用的sigmoid或者tanh,因为ReLU更能产生稀疏性。ReLU是线性修正,公式为[f(x)=max(0,x),]是purelin的折线版,它的作用是如果计算出的值小于0,就让它等于0,否则保持原来的值不变,这是一种简单的强制某些数据为0的方法,然而实践证明[11]:训练后的网络完全具备适度的稀疏性,和传统的预训练出的结果相似,说明了ReLU具备引导适度稀疏的能力。

图2 LeNet?5网络结构示意图

第一层是卷积层([C1]),卷积核的大小为5×5,即每个神经元指定一个5×5局部接受域,所以卷积操作以后得到的映射大小就变成了28×28。包括8个特征映射,即有8个不同的[C1]层,每个[C1]层内的权值是相同的。

第二层是采样层([S2]),[S2]是对[C1]用2×2的窗口进行最大池下采样操作得到的,所以得到的特征映射大小为14×14,下采样并没有改变特征映射的数目,所以特征映射的个数还是8个。每个神经元还包括一个可训练的系数、一个可训练的偏置和一个激活函数ReLU。

第三层还是卷积层([C3]),卷积核大小是5×5,同理可得[C3]特征映射的大小为10×10,只是特征的个数变成了32个。

第四层是采样层([S4]),还是用2×2的窗口进行最大池下采样,所以得到32个5×5的特征映射。

第五层是卷积层([C5]),还是5×5的卷积核进行卷积,得到128个1×1的特征映射。

第六层包括84个神经元,和[C5]进行全连接。

第七层是输出层,因为性别识别是个二元判断问题,所以只包括2个神经元,是由径向基函数单元组成。RBF的输出[yi]的计算公式如下:

[yi=j(xj-wij)2] (5)

4 实验结果

4.1 实验数据

本文实验数据来自于AR人脸数据库,包括50个男性和50个女性,每个人选取5张不同的照片,包括不同的光照、表情、肤色、种族等,总共500张人脸图片。利用交叉验证的方法,400张图片做训练,100张图片做测试,实验5次。灰度值在输入之前线性归一化到[0,1]。卷积层和采样层交替运算,训练和测试同时进行,迭代20次,迭代结果如图3所示。实验分为三种情况:正常图片、遮挡图片(遮挡部分用黑色填充,从最下端开始遮挡的高度依次为5 px,10 px,15 px,20 px)、旋转图片(顺时针旋转5°,10°,15°,20°,25°,30°)。表1为正常图片的实验结果,表2为遮挡图片的实验结果,表3为旋转图片的实验结果。

图3 训练迭代结果图

表1 正常图片的实验结果 %

[\&第一组\&第二组\&第三组\&第四组\&第五组\&平均值\&两层BP神经网络\&89\&92\&93\&90\&91\&91.8\&卷积神经网络\&93\&96\&95\&94\&95\&94.6\&]

表2 遮挡图片的实验结果(平均值) %

[\&5 px\&10 px\&15 px\&20 px\&两层BP神经网络\&87.8\&83.6\&74.4\&64.8\&卷积神经网络\&93.8\&90.2\&86.8\&80.2\&]

表3 旋转图片的实验结果(平均值) %

[\&5°\&10°\&15° \&20° \&25°\&30°\&两层BP神经网络\&86.2\&83.4\&75.8\&70.8\&66.2\&60.8\&卷积神经网络\&92.8\&88.6\&86.2\&82.6\&80.4\&78.6\&]

4.2 实验结果分析

通过实验结果可以看出,在正常图片下,两层BP神经网络和卷积神经网络都达到了较高的准确率,BP神经网络的准确率也接近于92%,两种算法的准确率相差很小。

当遮挡面积很小时(遮挡最下面5 px),BP神经网络的准确率也依然很高(87.8%),但是当遮挡面积较大时(遮挡超过15 px),两层BP神经网络的准确率出现较大幅度的下降,因为当遮挡15 px时,此时嘴巴已经被遮挡了,当遮挡20 px,鼻子也已经被遮挡了,BP神经网络能够提取到的有效特征变得很少了,准确率没有超过65%。而卷积神经网络当遮挡出现时,虽然准确率也会下降,但是下降的幅度比较小,即使当遮挡20 px,依然可以达到80%以上的准确率,这是因为卷积神经网络更能够有效地提取不明显的特征,相比于两层BP神经网络具有更好的抗干扰性和鲁棒性。

旋转的情况和遮挡类似,在旋转角度很小(小于5°)的情况下,BP神经网络还有比较高的准确率。当旋转角度超过15°时,准确率会有比较明显的下降,当旋转达到30°时,准确率下降到60%,而卷积神经网络具有较高的准确率,接近80%的准确率。这是因为在提取特征时,每一个神经元只从上一层的局部接受域得到突触输入,一旦一个特征被提取出来,只要它相对于其他特征的位置被近似地保留下来,它的精确位置就变得没有那么重要了。

实验结果表明,无论是在遮挡还是旋转的情况下,卷积神经网络相比于两层BP神经网络具有更好的鲁棒性。

5 结 语

卷积神经网络是深度学习的一种方法,凭借其在二维图像上的卓越性能,被越来越广泛地应用于各个领域中。本文将其引入到人脸性别识别领域并取得了一定的分类准确率。

今后的研究工作将综合考虑每一层特征映射的关系,进一步优化卷积神经网络结构,同时思考将卷积神经网络引入其他相关领域,如视频人脸检测当中。

参考文献

[1] 刘遵雄,马汝成.基于特征脸和LS?SVM分类器的人脸性别分类[J].华东交通大学学报,2007,24(5):85?88.

[2] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.

[3] BOUVRIE J. Notes on convolutional neural networks [J/OL]. [ 2012?04?03]. http://www.docin.com.

[4] SIMARD P Y, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// 2013 12th International Conference on Document Analysis and Recognition. [S.l.]: IEEE Computer Society, 2003, 2: 958?961.

[5] TIVIVE F H C, BOUZERDOUM A. A new class of convolutional neural networks (SICoNNets) and their application of face detection [C]// 2003 Proceedings of the International Joint Conference on Neural Networks. [S.l.]: IEEE, 2003, 3: 2157?2162.

[6] SUKITTANON S, SURENDRAN A C, PLATT J C, et al. Convolutional networks for speech detection [C]// 8th International Conference on Spoken Language Processing. Jeju Island, Korea: INTERSPEECH, 2004:11?14.

[7] CHEN Y N, HAN C C, WANG C T, et al. The application of a convolution neural network on face and license plate detection [C]// 2006. ICPR 2006. 18th International Conference on Pattern Recognition. [S.l.]: IEEE, 2006, 3: 552?555.

[8] LAUER F, SUEN C Y, BLOCH G. A trainable feature extractor for handwritten digit recognition [J]. Pattern Recognition, 2007, 40(6): 1816?1824.

[9] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221?231.

[10] SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection [C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2013: 3476?3483.

[11] MAAS A L, HANNUN A Y, NG A Y. Rectifier nonlinearities improve neural network acoustic models [C]// ICML Workshop on Deep Learning for Audio, Speech, and Language Processing. [S.l.]: [s.n.], 2013: 111?120.

[12] 顾佳玲,彭宏京.增长式卷积神经网络及其在人脸检测中的应用[J].系统仿真学报,2009(9):2441?2445.

卷积 神经网络 文章