...盘诞生记 采用眼球追踪技术
黄远胜
[摘 要]在对眼球追踪技术和自动对焦技术的深入研究后,本文提出了一种基于眼球追踪技术的自动对焦的方法,能有效的提高拍照过程中人机交互的效率。本方法在具有眼球追踪传感器的条件下,通过眼球追踪传感器获取并处理人眼的图像信息,从而将人眼的注视点映射到屏幕平面上,在根据此注视点的值来改变相机的聚焦点。由此就解决了相机自动对焦不准对相片质量的影响,同时也大大提高了拍照的效率。
[关键词]眼球追踪技术 自动对焦 人机交互 眼球追踪传感器
中图分类号:B841 文献标识码:A 文章编号:1009-914X(2017)18-0084-02
1 眼球追踪技术
1.1 眼球追踪技术的简要介绍
眼球追踪(Eye Tracking)技术,也称为视线追踪(Gaze Tracking)技术,是采用机械、电子、光学等方式获得被测试者人眼信息并进行计算得到被测试者当前视线方向或者视线落点的技术。该技术广泛的应用于人机交互、残疾人辅助、驾驶员驾驶状态监测、人因分析、虚拟现实和广告分析等领域。眼球追踪可以对用户视觉行为和认知活动进行分析,例如心理学中的认知实验以及用户界面可用性评估[1][2];同时眼球追踪也可以作为一种替代鼠标和键盘的新型输入技术。例如眼控打字系统、眼动驱动的自适应用户界面系统。
1.2 眼球追踪技术的发展现状
1.2.1 眼球追踪技术在国外的发展现状
最早将视线追踪技术推向实用化和商业化的是美国、日本和欧洲的相关机构和公司。美国弗吉尼亚大学在1988年推出了ERICA系统 (the Eye-gaze Response Interface Computer Aid),它是采用一种红外图像的应用系统,研制目的是面向重度残障人士的人机交互,帮助其生活、学习和娱乐等,在当时解决了很多残疾人士在信息传递和环境控制上的困难。1996年Stiefelhagen等人所设计的无干扰式视线跟踪系统,他们在前人研究的基础上提出了实时皮肤颜色模型,讲肤色用于识别、定位和跟踪人脸。Balujia和Pomerleau于1993年提出了一种由人眼的图像来推测用户在计算机屏幕上注视点的方法,把人眼图像输入神经网络,来推断眼睛在计算机屏幕上的注视点位置。
1.2.2 眼球追踪技术在国内的发展现状
相对国外的研究成果而言,国内对眼球追踪技术的研究起步比较晚,专门研究起始于70年代末、80年代初,主要有北京航天医学研究所、中科院上海生理所以及浙江大学等单位,但主要研究方式是利用引进国外设备作实验,自己对这方面的研究开展并不多。直到90年代末,西安电子科技大学通过对国外视觉测量技术的研究,成功地研制出眼动仪样机。它用红外摄像法的原理获取双眼图像,瞳孔中心位置检测算法和数据有并行串行的转换用FPGA设计完成,而且采用了ASIC设计技术实现,从而使得到该系统具有体积小、重量轻、便于携带的优点。
1.3 眼球追踪技术的系统分类
1.3.1 典型的两类眼球追踪系统
典型的视线追踪系统即穿戴式视线追踪系统和非穿戴式视线追踪系统两大系统。穿戴式眼球追踪系统用系统能够保持摄像机与被测试者眼睛距离始终不变的优势,减轻了后续图像处理的负担的同时还提高了最终的计算精度。但由于穿戴式眼球追踪系统需要安装在人的头部,使用者不能再自然无接触的状態下使用,会给使用者造成干扰。非穿戴式眼球追踪系统也称为遥测式、非侵入式系统,这种眼球追踪系统的最大特点是不需要与使用者接触。其系统构成一般包括图像输入设备(摄像机)、辅助光源(LED灯或者红外光源)以及其他安置设备等。非穿戴式系统的最大优点就是对被测试者的干扰性小,可以长时间使用。但该系统也存在诸多缺点,例如由于非穿戴式系统中被测试者头部和摄像机距离不固定,增加了后续图像分析处理的工作速度。
1.3.2 从眼球追踪系统的结构分类
从结构构成上,眼球追踪系统可以分为单摄像机无光源系统、单摄像机单光源系统、单摄像机多光源系统以及多摄像机多光源系统。
单摄像机无光源系统是结构最为简单的系统。由于没有添加辅助光源来产生人眼角膜特征的光斑作为参照,所以摄像机捕获的被测试者图像是相对自然与真实的,同时单摄像机无光源系统对被测试者的实验环境没有太严格的要求。但因为没有辅助光源作为参照,而是单纯的靠摄像机来进行图像信息采集,所以视线追踪系统所采集的被测试者脸部和人眼区域特征较为杂乱。
无光源系统结构简单、成本低,但是使用特殊辅助光源在被测试者眼部所产生的角膜特征光斑对瞳孔识别以及瞳孔检测等举要很大的帮助[3]。辅助光源在人眼区域产生的主要特征就是人眼角膜反射光斑和亮瞳现象。尽管单光源或者多光源系统增加了外部硬件配置,是的系统更加累赘,但这样做极大的降低了视线追踪中视线方向计算所需人眼参数特征的提取难度。
在单摄像机单光源系统的基础上,多光源系统的配置研究也得到了较大的发展。多光源系统的出现为视线追踪系统软件的被测试者人眼检测和人眼特征参数的提取带来了更大的作用。但是多辅助光源视线追踪系统需要对多个光源的配置进行深入的研究,系统设备将变得更加的复杂。
1.4 眼动特性与视线追踪原理
1.4.1 眼球的运动形式
视觉系统由眼球、视路和附属器三部分组成。人们每天的眼球都在进行着不同形式的运动,而眼球的各种运动形式都是为了使目标能够正确的落在视网膜的中心区域,这样才能保证清晰的视觉输入。眼球的运动的基本形式主要有三种:注视运动(Fixations)、眼球跳动(Saccades)、眼球平滑尾随追踪运动(Smooth Pursuit)。
1.4.2 视线追踪的基本原理
由光源发出的红线经红外滤光镜后只有红外线可以通过;红外线经过半反射镜后,部分到达反射镜,经反射镜反射到达眼球;眼球对红外线的反射光经同一反射镜到达能锁定眼睛的特殊的瞳孔摄像机,通过连续的记录从人的眼角膜和瞳孔反射的红外线,然后利用图像处理技术,得到眼球的完整图像;在经过软件处理后获得实现变化的数据,达到视线追踪的目的。
1.5 眼球追踪技术相关算法
1.5.1 人眼检测算法
1)AdaBoost算法
AdaBoost算法是一种迭代算法,该算法基于弱学习模型,其核心思想是通过迭代的方式对一个相同训练集训练不同的弱分类器;最后把这些训练出来的弱分类器整合成另一个强分类器。AdaBoost算法本质是通过对弱分类器的线性加权组合,它根据训练集中每个样本的每次分类后是否正确,以及一次对训练集的总体分类的准确率,来确定训练集中每个样本的权重,如果某个训练样本能被本轮的弱分类器正确分类,那么在学习下一轮的弱分类器之前,需要减小这个样本的权重,使得新一轮的训练主要围绕那些无法被正确分类的样本。在对进行权值修改过后,将新的数据集送给下一层继续进行训练,最后将每次训练所得到的弱分类器整合成为决策分类器。使用AdaBoost分类器可以动态的调整数据特征的权重。而人眼检测式判断图像中是否包含人眼,是则检测图像中人眼的位置以及初略尺寸的过程。
2)粒子滤波算法
粒子滤波算法是一种求解贝叶斯估计中的积分运算的统计滤波方法,它的基本思想大致为:首先,根据经验信息或者初始状态信息,为系统状态向量在状态空间随机产生初始粒子,然后根据每一次的测量结果不断的更新和调整粒子的权值和位置,利用权值更新后的粒子信息和当前输出信息并修改最初的经验条件分布。在样本数量趋近于无穷大时,这种描述方法就近似于真实环境下的后验概率密度函数,使用状态空间模型表示的非高斯线性随机系统能够很好的跟随,整个精度逼近最优估计。
1.5.2 常见的瞳孔提取方法
1)Hough变换拟合算法
Hough变换的基本思想是利用图像空间与参数空间的对偶性,将在图像空间中较难的检测特定形状曲线的问题转化为参数空间中比较容易的聚类问题。由于Hough变换对噪声和曲线残缺的情况有较高的鲁棒性,因此在解决直线、圆和椭圆检测的问题上非常有效。标准的Hough变换只考虑了边缘的位置信息,而且孤立的对待每个边缘点,因此参数空间的维数与曲线的自由度相同。尽管不会对直线检测造成影响,但是当曲线的自由度較高时存在算法时空复杂度大的问题。例如椭圆的自由度为5,因此SHT需要构造一个5维的累加器,而且在确定累加器阵列的局部峰值时还会经常给出虚假椭圆的检测结果。针对SHT存在的问题,研究者们相继给出了一系列令边缘梯度信息和椭圆的极点极弦性质的改进算法,具体包括基于单点、两点、三点、和五点的Hough变换椭圆检测算法。由Hough变换得到属于每个椭圆的内点后,利用最小二乘拟合给出最终的精确结果。
2)基于最小二乘的椭圆拟合算法
常用的椭圆拟合方法主要有3类,一类是基于Hough变换的椭圆拟合方法,另一类是基于不变矩阵的方法,第三类则是基于最小二乘的方法。这些方法中,基于最小二乘的方法适用于各种复杂的对象模型,能达到很高的拟合精度。因此这里采用基于椭圆特异性的最小二乘法进行椭圆拟合。
2 自动对焦技术
2.1 自动对焦技术的简要介绍
自动对焦技术(Auto-Focus),也称为自动聚焦、自动调焦等。该技术诞生于20世纪70年代,最初应用于照相系统。但是,由于工业技术水平以及集成电路的发展尚未成熟,很多自动对焦系统因为设备体积过于庞大和电路太复杂而被埋没在了自动对焦的发展历史长河里。如今,随着仪器的智能化和自动化的迅速发展,自动对焦技术已经成为了摄像系统中必不可少的技术。人们总结出了很多极具价值的传统对焦方法,如测距法(激光测距法、红外测距法、超声波测距法)、VAF(Visitronic Auto Focus)组件相关法等等。随着计算机技术、信号处理技术以及图像处理技术的发展,自动对焦技术的另一个重要方法也应运而生————基于数字图像处理的对焦技术。
2.2 自动对焦技术的发展现状
2.2.1 自动对焦技术在国外的发展现状
国外早在18世纪末就有法国人对自动对焦技术进行过研究。自20世纪以来,国外有很多对自动对焦技术的著名研究,1970年美国斯坦福大学J.M. Tenenbaum 开展了计算机视觉系统的自动对焦研究,其根据图像的特征提取离焦信号,通过调制梯度作为自动对焦评价函数,得到了的对焦效果极佳[4]。1983年,英国瑞丁大学(University of Rading)物理系 Grembeby. J.B提出了调制传递函数作为离焦判据,这一判据早已被光学界接受,并且应用到了医疗内诊照相系统的自动对焦中[5]。
2.2.2 自动对焦技术在国内的发展现状
中国对自动对焦技术的研究起步也比较晚。但是,随着中国在计算机领域的快速发展,现如今国内也有很多高校、科研机构以及企业单位研究自动对焦技术和开发自动对焦系统。1985年上海光学仪器研究所采用光学的自准直方法研制完成集成电路光刻机自动对焦装置;1992年,哈尔滨工业大学光学仪器教研室完成图像检测式频带切割差动比较CCD对焦系统;清华大学白立芬等人研制的“集成电路线带测量系统”,该采用基于图像处理的显微镜自动对焦方法;清华大学瞿蓬,林喜荣等人设计的“虹膜图像自动采集系统”也是采用基于图像处理的自动对焦方法,以图像的平均对比度为清晰度判据。系统采用红外照明,计算机在控制摄像物镜移动的过程中不断采集人眼图像,对每幅图像首先定位虹膜区域,并根据该区域的对比度判断虹膜是否成像清晰,进行自动对焦,获取最终用于识别的图像。
2.3 自动对焦原理概述
2.3.1 自动对焦基本原理
1)光学系统成像原理
无论是以前还是现在,光学成像都是获取图像常用和重要的手段。就像人需要用眼睛来获取外界的信息一样,光学成像在信息的获取中同样起着巨大的作用。光学系统会将三维空间的图像投影到二维平面,同时由于衍射和透镜的像差会造成图像的像质下降。在光学成像系统中,三维空间的目标图像通过光学镜头的作用变换成图像传感器件上的二维图像。
2)線性系统成像原理
一个成像系统可以看作是一个线性系统,所以对于目标物体离焦可以看作一个图像的退化过程。假设原图为,退化过程为H(可以看作是一个线性不变系统),然后加上一个噪声后,从而最后形成输出图像。
2.4 相关的自动对焦评价算法
2.4.1 频谱函数
基于傅立叶变换函数的频谱函数,是分析图像频域特征的经典函数。二维傅立叶变换可以对构成图像的空间频域进行详细分析。
2.4.2 梯度函数
在图像处理中,梯度函数常被用来提取边缘信息。对焦良好的图像,即有更尖锐的边缘的图像,应有更大的梯度函数值。常用的梯度函数有方差算子、能量梯度函数、拉普拉斯算子、Tenengrad函数、Brenner函数等。
2.4.3 熵函数
熵函数是基于这样一个前提——对焦良好的图像的熵大于没有对焦清晰的图像,因此可以作为一种评价标准。
3 结束语
本文在总结了大量文献的基础上,对眼球追踪技术和自动对焦技术的国内外发展现状以及原理进行了介绍与回顾。分析了了集中重要的眼球追踪技术相关算法以及自动对焦相关评价算法,重点介绍了AdaBoost算法、Hough拟合算法以及自动对焦算法的频谱函数、梯度函数等,阐述了其技术原理及系统的构成。最后,在对眼球追踪技术和自动对焦技术的相关原理和算法的研究后发现,可以将两种技术合并成一种新的“基于眼球追踪技术的自动对焦技术”,有眼球来控制摄像头的焦点以及焦距等。该技术可以很大程度的减少一些电子设备在拍照方面的缺陷。然而由于人眼固有的生理机制及眼动的非线性、随机性和复杂性,是的该技术在实际的应用中收到了很大的限制,在眼球追踪技术方面,如何平衡精度和自由度一直是很多眼球追踪技术系统中存在的一大难题。但随着高精度、高自由度以及低成本的眼球追踪系统的不断涌现,让基于眼球追踪技术的自动对焦技术成为了可能。
参考文献
[1] 2程时伟,石元伍,孙守迁.移动计算用户界面可用性评估的眼动方法[J].电子学报,2009,(S1):146-150.
[2] 3张光强,沈模卫,陶嵘.可用性测试中的视线追踪技术[J].人类工效学,2001,(04):9-14+70-71.
[3] 9徐来,周德龙.人眼检测技术的方法研究[J].计算机系统应用,2010,19(6):226-232.
[4] 13刘煜.高分辨率CCD卫星调焦的研究[D].哈尔滨工业大学硕士学位论文,1993
[5] 14薛实幅,李庆祥,精密仪器设计[M].北京:清华大学出版社,1991:255~244,340~376