基于CDF9?7小波和自适应Otsu算法的视频字幕分割
   来源:现代电子技术     2018年01月05日 05:30

黄同 邵思飞

摘 要: 提出了一种基于CDF9?7小波和自适应Otsu算法的视频图像字幕分割算法。首先从视频中截取视频图像,并对其进行灰度化等预处理,其次对预处理后的图像进行CDF9?7小波变换,获取其水平和垂直的高频分量HH,然后使用自适应Otsu算法分割出该高频分量图像中的字幕区域。实验表明,该算法分割效果良好,具有一定的鲁棒性和自适应性。以这些区域为基础,可以进一步完成诸如视频字幕识别等图像分析、理解和识别操作。

关键字: CDF9?7小波; 自适应Otsu算法; 视频字幕; 图像分割

中图分类号: TN911.73?34; TP391.1 文献标识码: A 文章编号: 1004?373X(2014)09?0050?03

0 引 言

视频是依据人眼视觉暂留原理,存储的看上去平滑连续而实际上动态捕捉的一系列的静态照片,已经成为互联网上除文字、声音之外最重要的媒体形式,对其自动分析与理解已经成为当前网络监管的重要研究内容。视频图像中的文字隐含了非常丰富的高层语义信息,对其分割、定位、识别、理解和检索具有重要的现实意义。从这些处理步骤来讲,分割和定位操作是字符识别、理解和检索等高层处理的基础,直接影响着高层处理的成功率和精确度。字幕作为视频中最重要的文字,有的以独立的字幕文件存在,而有的被嵌入在视频图像中。独立存在的字幕文件往往仅包含时间区间和文本信息,比较容易处理,而嵌入在视频图像中的字幕就必须首先进行图像分割操作,然后采用适当算法定位这些文字的区域。

图像分割就是把图像分解成有限个感兴趣的和特质相关的区域的一种操作,是图像分析、理解和识别操作的基础,因此研究人员从各个学科出发,提出并不断改进了很多图像分割方法。目前主要的分割方法有基于阈值设定、基于边缘检测、基于区域、基于聚类分析、基于模糊集理论[1],以及基于群体智能[2]等众多分割方法。这些算法各有优缺点,存在的主要问题是适用范围的局限性和较低的准确性及鲁棒性。本文提出的CDF9?7小波变换结合自适应Otsu算法的视频图像分割方法,对于视频图像中字幕区域的分割效果良好。

1 视频图像分割步骤

本文给出的分割方法总体来说有三步。首先,先从视频中获取视频图像,对彩色图像则要进行去噪和灰度化等预处理。目的在于尽可能削弱图像背景级噪声对字幕文字的相关性。然后,对预处理后的图像进行CDF9?7小波变换,获取其水平和垂直方向的高频分量HH。因为CDF9?7小波是满足线性相位要求的非常适用于图像处理的双正交小波,而视频字幕区域背景和字幕颜色往往对比度高,边缘信息和高频分量丰富。最后,使用自适应Otsu算法找出该高频分量中的最佳阈值,分割出图像中包含字幕文字的有效区域。

1.1 CDF9?7小波

9?7小波是一个双正交小波[3],其正交性体现在母小波[ψ]及其对偶母小波[ψ]之间,[ψ]和[ψ]本身没有正交性, 即[<ψm,n,ψj,k>=δm,jδn,k],对应地其尺度函数[?]及其对偶尺度函数[?]也满足正交关系,即[=δm,jδn,k],[ψ]和[ψ]构成一对[L2(R)]空间的双正交小波基。正交小波可视为是在[ψ=ψ]时的双正交小波的特例。虽然相对正交小波,9?7双正交小波正交性放宽或者说变弱,但是它具有很好的对称性和线性相位特性。其滤波器系数获取可以通过求解约束PR条件得到。但约束条件毕竟只是必要条件,为使无穷乘积收敛,Cohen、Daubechies和Feauveau提出了以它们名字首字母命名的CDF方法,在求解时增加了新的消失矩条件,求解出了系数和没有消失矩条件略有不同的9?7小波,可记为CDF9?7小波。这种小波除了原有的对称性和线性相位这些优点外,支撑区间变小且收敛更快,正是由于CDF9?7小波的这些优秀特征,因而被广泛用于图像处理等领域,目前已经成为了JPEG 2000有损图像压缩标准中的默认小波。但在具体实现中,由于图像数据量往往很大,为提高运行效率,往往并不直接采用离散小波变换的快速算法(MALLAT算法),而是对CDF9?7小波进行提升实现,在同等条件下,运算速度和效率较MALLAT算法提高2倍。

CDF9?7小波对二维图像变换的步骤是,首先用分析滤波器[h,g]对图像(记为[cj+1l,n])的列做小波变换,得到低频部分[nhn-2mcj+1l,n]和高频部分[ngn-2mcj+1l,n]。然后对低频部分的行做小波变换,得到低频中的低频分量[cjk,m](记为LL)和低频中的高频分量[dj,1k,m](记为HL);对高频部分的行做小波变换,得到高频中的低频分量[dj,2k,m](记为LH)和高频中的高频分量[dj,3k,m](记为HH)。以上分解也可以先做行小波变换再做列小波变换,结果相同。最后,图像经一级分解后由如下4块区域组成:

[LLHLLHHH或cjk,mdj,1k,mdj,2k,mdj,3k,m]

多级分解可以持续对LL分量(图像概貌)进行,最终图像变成塔式结构,为区分每个小块,一般需要对LL等块添加代表分解级数的下标。由于一般的视频字幕文字区域与背景(往往纯色)存在比较强的边缘,对比度高,边缘信息和高频分量本身非常丰富,因此,经过分解后,利于图像分割的信息主要集中在高频中的高频分量HH中;多级分解必然是对上次分解的低频分量LL进行,本身隐含的视频字幕文字区域信息很少。经过多种条件下的反复测试,在准确率基本一致的情况下,多级分解运算量大幅度提高,并无必要,对预处理后的图像只需要使用CDF9?7小波变换进行了一级分解即可。即完成一级分解得到的[HH1]送做后续处理,其他3块数据暂时不用。

1.2 自适应Otsu算法

经过CDF9?7小波分解后的图像区域[HH1]滤除了原视频图像中的低频信息,隐含了大量视频图像的高频边缘信息,但并没有对图像进行分割,同时由于图像背景的复杂性, 视频图像字幕区域之外的部分仍然存在很多对比度高的边缘信息,因而必须采用相应的方法进行分割和判定。

传统的Otsu算法一般被认为是图像阈值方式分割中阈值选取的“最佳算法”,也可以称为最大类间差法或大津算法[4]。这种算法计算简单,受图像对比度和亮度影响较小,因而在图像分割领域应用广泛。其基本理论是按图像的灰度特性,寻找出灰度范围在0~[L-1]之间共[L]个灰度级的图像的使得类间方差[d]最大的最佳阈值[t],小于[t]的像素集归为背景,大于[t]的像素集归为前景。用数学方法描述即为:[t=max(d),][d=bp(t)*(be(t)-u)2+fp(t)*(fe(t)-u)2],其中变量:[bp]为取最佳阈值时背景总的像素点占整幅图像的比例(概率);[be]为取最佳阈值时背景总的像素点灰度值的均值;[fp]为取最佳阈值时前景总的像素点占整幅图像的比例(概率);[fe]为取最佳阈值时前景总的像素点灰度值的均值;[u]为整幅图像像素点灰度值的均值。使以上表达式值最大的[t],即为分割图像的最佳阈值。类间方差越大,则背景和前景的差别越大,类间方差越小,则背景和前景的差别越小。造成类间方差变小的原因主要是阈值计算不当,使得部分背景错分为前景或部分前景错分为背景,因此,最佳阈值的选择至关重要。

这种算法虽然简单且效果较好,但是也有一些显著缺陷。主要有:

(1) 最佳阈值的选取必须遍历图像整个灰度范围[0~L-1]内的所有像素,逐个计算类间方差[d]并找出使类间方差最大的[t,]运算量大,难以满足视频图像中字幕区域的分割这样的实时系统应用;

(2) 阈值选取是在整个视频图像范围进行计算,而实际视频帧图像本身灰度分布动态变化且受到各种噪声的干扰,仅利用灰度直方图得到的阈值难以得到满意的图像字幕区域分割结果。

为此,在视频图像中字幕区域图像分割这样的实时应用中,针对以上两点不足,考虑到视频图像字幕区域往往集中在视频图像下部,甚至有的字幕区域背景还是纯色或少量噪声的实际,提出了一种自适应的Otsu算法。设某视频图像分辨率(宽×高)为[m×n](如640×480,1 280×720等),共[L]个灰度级,其基本方法步骤是:首先,根据图像高度,自适应地确定字幕区域的高度范围,截取字幕区域子图像并结合根据sum(第[k]行像素值)等于或约等于[m×L,]用软件简单计算,自适应地判别上述字幕区域背景是否为纯色(如白和黑)或近似纯色。好处是,最佳阈值[t]的选取局限在较小区域,大幅度降低了运算量;然后,选择字幕区域子图像灰度值中位数作为“最佳阈值”或传统的Otsu算法遍历出最佳阈值。特别地,对字幕区域中字符和背景为纯色或近似纯色的情况,即使有噪声,灰度个数或灰度级[L]也非常小,传统的Otsu算法可以极快找出最佳阈值,甚至可以直接灰度值中位数作为“最佳阈值”,两种方案都可以进一步降低运算量,真正满足实时系统要求;最后,使用上述最佳阈值对整幅视频图像进行分割。

2 实验及结果

实验全部在Matlab 2009b下编程完成,数据为常见的电影、新闻和动画。目前,对于图像分割效果的评价,没有统一的客观数量指标[5],本文的评价指标设定为传统的Otsu算法求出的最佳阈值和自适应Otsu算法求出的最佳阈值之间的差值[td,]传统的Otsu算法耗时减去自适应Otsu算法耗时的时间差[jl。]以从电影《第五元素》中截取的一个视频图像为实例,其分辨率为560×315,宽高比为16∶9,经过对比计算[td]等于3,可见阈值差别很小;[jl]等于80 ms,如果将整个2小时5分钟的整个视频累积,则总的[jl]近590 s,可见自适应Otsu算法效率和实时性显著提升。作为实例的视频图像按自适应Otsu算法所得阈值进行图像分割的结果如图1所示。从实验结果看出,改进的算法令人满意。

图1 视频图像分割结果

3 结 语

本研究提出的基于CDF9?7小波分析和自适应Otsu算法的视频图像分割方法,较其他分割方法大幅度降低了运算量,高效易行,满足实时性需求并具有一定的鲁棒性。以这些区域为基础,可以进一步完成诸如视频文字区域定位等图像分析、理解和识别操作。但由于视频图像背景的复杂性,算法的准确性及鲁棒性仍需进一步提升。

参考文献

[1] 何俊,葛红.王玉峰.图像分割算法研究综述[J].计算机工程与科学,2009(12):58?61.

[2] 马苗,刘艳丽.图像分割背景下群体智能优化算法的性能对比[J].云南大学学报:自然科学版,2012(4):401?407.

[3] 刘在德,常晋义,沈钧毅.一类双正交插值小波的参数化构造及图像编码应用[J].中国图象图形学报,2010(4):557?564.

[4] 胡敏,宋银龙.基于二维Otsu和模糊聚类的图像分割算法[J].计算机应用研究,2012(4):1563?1565.

[5] 邓廷权,焦颖颖.图像分割质量评价的二型模糊集方法[J].计算机工程与应用,2011(32):217?220.

[6] 彭正涛,方康玲,苏志祁.基于改进PSO算法的Otsu快速多阈值图像分割[J].现代电子技术,2011,34(6):10?14.

传统的Otsu算法一般被认为是图像阈值方式分割中阈值选取的“最佳算法”,也可以称为最大类间差法或大津算法[4]。这种算法计算简单,受图像对比度和亮度影响较小,因而在图像分割领域应用广泛。其基本理论是按图像的灰度特性,寻找出灰度范围在0~[L-1]之间共[L]个灰度级的图像的使得类间方差[d]最大的最佳阈值[t],小于[t]的像素集归为背景,大于[t]的像素集归为前景。用数学方法描述即为:[t=max(d),][d=bp(t)*(be(t)-u)2+fp(t)*(fe(t)-u)2],其中变量:[bp]为取最佳阈值时背景总的像素点占整幅图像的比例(概率);[be]为取最佳阈值时背景总的像素点灰度值的均值;[fp]为取最佳阈值时前景总的像素点占整幅图像的比例(概率);[fe]为取最佳阈值时前景总的像素点灰度值的均值;[u]为整幅图像像素点灰度值的均值。使以上表达式值最大的[t],即为分割图像的最佳阈值。类间方差越大,则背景和前景的差别越大,类间方差越小,则背景和前景的差别越小。造成类间方差变小的原因主要是阈值计算不当,使得部分背景错分为前景或部分前景错分为背景,因此,最佳阈值的选择至关重要。

这种算法虽然简单且效果较好,但是也有一些显著缺陷。主要有:

(1) 最佳阈值的选取必须遍历图像整个灰度范围[0~L-1]内的所有像素,逐个计算类间方差[d]并找出使类间方差最大的[t,]运算量大,难以满足视频图像中字幕区域的分割这样的实时系统应用;

(2) 阈值选取是在整个视频图像范围进行计算,而实际视频帧图像本身灰度分布动态变化且受到各种噪声的干扰,仅利用灰度直方图得到的阈值难以得到满意的图像字幕区域分割结果。

为此,在视频图像中字幕区域图像分割这样的实时应用中,针对以上两点不足,考虑到视频图像字幕区域往往集中在视频图像下部,甚至有的字幕区域背景还是纯色或少量噪声的实际,提出了一种自适应的Otsu算法。设某视频图像分辨率(宽×高)为[m×n](如640×480,1 280×720等),共[L]个灰度级,其基本方法步骤是:首先,根据图像高度,自适应地确定字幕区域的高度范围,截取字幕区域子图像并结合根据sum(第[k]行像素值)等于或约等于[m×L,]用软件简单计算,自适应地判别上述字幕区域背景是否为纯色(如白和黑)或近似纯色。好处是,最佳阈值[t]的选取局限在较小区域,大幅度降低了运算量;然后,选择字幕区域子图像灰度值中位数作为“最佳阈值”或传统的Otsu算法遍历出最佳阈值。特别地,对字幕区域中字符和背景为纯色或近似纯色的情况,即使有噪声,灰度个数或灰度级[L]也非常小,传统的Otsu算法可以极快找出最佳阈值,甚至可以直接灰度值中位数作为“最佳阈值”,两种方案都可以进一步降低运算量,真正满足实时系统要求;最后,使用上述最佳阈值对整幅视频图像进行分割。

2 实验及结果

实验全部在Matlab 2009b下编程完成,数据为常见的电影、新闻和动画。目前,对于图像分割效果的评价,没有统一的客观数量指标[5],本文的评价指标设定为传统的Otsu算法求出的最佳阈值和自适应Otsu算法求出的最佳阈值之间的差值[td,]传统的Otsu算法耗时减去自适应Otsu算法耗时的时间差[jl。]以从电影《第五元素》中截取的一个视频图像为实例,其分辨率为560×315,宽高比为16∶9,经过对比计算[td]等于3,可见阈值差别很小;[jl]等于80 ms,如果将整个2小时5分钟的整个视频累积,则总的[jl]近590 s,可见自适应Otsu算法效率和实时性显著提升。作为实例的视频图像按自适应Otsu算法所得阈值进行图像分割的结果如图1所示。从实验结果看出,改进的算法令人满意。

图1 视频图像分割结果

3 结 语

本研究提出的基于CDF9?7小波分析和自适应Otsu算法的视频图像分割方法,较其他分割方法大幅度降低了运算量,高效易行,满足实时性需求并具有一定的鲁棒性。以这些区域为基础,可以进一步完成诸如视频文字区域定位等图像分析、理解和识别操作。但由于视频图像背景的复杂性,算法的准确性及鲁棒性仍需进一步提升。

参考文献

[1] 何俊,葛红.王玉峰.图像分割算法研究综述[J].计算机工程与科学,2009(12):58?61.

[2] 马苗,刘艳丽.图像分割背景下群体智能优化算法的性能对比[J].云南大学学报:自然科学版,2012(4):401?407.

[3] 刘在德,常晋义,沈钧毅.一类双正交插值小波的参数化构造及图像编码应用[J].中国图象图形学报,2010(4):557?564.

[4] 胡敏,宋银龙.基于二维Otsu和模糊聚类的图像分割算法[J].计算机应用研究,2012(4):1563?1565.

[5] 邓廷权,焦颖颖.图像分割质量评价的二型模糊集方法[J].计算机工程与应用,2011(32):217?220.

[6] 彭正涛,方康玲,苏志祁.基于改进PSO算法的Otsu快速多阈值图像分割[J].现代电子技术,2011,34(6):10?14.

传统的Otsu算法一般被认为是图像阈值方式分割中阈值选取的“最佳算法”,也可以称为最大类间差法或大津算法[4]。这种算法计算简单,受图像对比度和亮度影响较小,因而在图像分割领域应用广泛。其基本理论是按图像的灰度特性,寻找出灰度范围在0~[L-1]之间共[L]个灰度级的图像的使得类间方差[d]最大的最佳阈值[t],小于[t]的像素集归为背景,大于[t]的像素集归为前景。用数学方法描述即为:[t=max(d),][d=bp(t)*(be(t)-u)2+fp(t)*(fe(t)-u)2],其中变量:[bp]为取最佳阈值时背景总的像素点占整幅图像的比例(概率);[be]为取最佳阈值时背景总的像素点灰度值的均值;[fp]为取最佳阈值时前景总的像素点占整幅图像的比例(概率);[fe]为取最佳阈值时前景总的像素点灰度值的均值;[u]为整幅图像像素点灰度值的均值。使以上表达式值最大的[t],即为分割图像的最佳阈值。类间方差越大,则背景和前景的差别越大,类间方差越小,则背景和前景的差别越小。造成类间方差变小的原因主要是阈值计算不当,使得部分背景错分为前景或部分前景错分为背景,因此,最佳阈值的选择至关重要。

这种算法虽然简单且效果较好,但是也有一些显著缺陷。主要有:

(1) 最佳阈值的选取必须遍历图像整个灰度范围[0~L-1]内的所有像素,逐个计算类间方差[d]并找出使类间方差最大的[t,]运算量大,难以满足视频图像中字幕区域的分割这样的实时系统应用;

(2) 阈值选取是在整个视频图像范围进行计算,而实际视频帧图像本身灰度分布动态变化且受到各种噪声的干扰,仅利用灰度直方图得到的阈值难以得到满意的图像字幕区域分割结果。

为此,在视频图像中字幕区域图像分割这样的实时应用中,针对以上两点不足,考虑到视频图像字幕区域往往集中在视频图像下部,甚至有的字幕区域背景还是纯色或少量噪声的实际,提出了一种自适应的Otsu算法。设某视频图像分辨率(宽×高)为[m×n](如640×480,1 280×720等),共[L]个灰度级,其基本方法步骤是:首先,根据图像高度,自适应地确定字幕区域的高度范围,截取字幕区域子图像并结合根据sum(第[k]行像素值)等于或约等于[m×L,]用软件简单计算,自适应地判别上述字幕区域背景是否为纯色(如白和黑)或近似纯色。好处是,最佳阈值[t]的选取局限在较小区域,大幅度降低了运算量;然后,选择字幕区域子图像灰度值中位数作为“最佳阈值”或传统的Otsu算法遍历出最佳阈值。特别地,对字幕区域中字符和背景为纯色或近似纯色的情况,即使有噪声,灰度个数或灰度级[L]也非常小,传统的Otsu算法可以极快找出最佳阈值,甚至可以直接灰度值中位数作为“最佳阈值”,两种方案都可以进一步降低运算量,真正满足实时系统要求;最后,使用上述最佳阈值对整幅视频图像进行分割。

2 实验及结果

实验全部在Matlab 2009b下编程完成,数据为常见的电影、新闻和动画。目前,对于图像分割效果的评价,没有统一的客观数量指标[5],本文的评价指标设定为传统的Otsu算法求出的最佳阈值和自适应Otsu算法求出的最佳阈值之间的差值[td,]传统的Otsu算法耗时减去自适应Otsu算法耗时的时间差[jl。]以从电影《第五元素》中截取的一个视频图像为实例,其分辨率为560×315,宽高比为16∶9,经过对比计算[td]等于3,可见阈值差别很小;[jl]等于80 ms,如果将整个2小时5分钟的整个视频累积,则总的[jl]近590 s,可见自适应Otsu算法效率和实时性显著提升。作为实例的视频图像按自适应Otsu算法所得阈值进行图像分割的结果如图1所示。从实验结果看出,改进的算法令人满意。

图1 视频图像分割结果

3 结 语

本研究提出的基于CDF9?7小波分析和自适应Otsu算法的视频图像分割方法,较其他分割方法大幅度降低了运算量,高效易行,满足实时性需求并具有一定的鲁棒性。以这些区域为基础,可以进一步完成诸如视频文字区域定位等图像分析、理解和识别操作。但由于视频图像背景的复杂性,算法的准确性及鲁棒性仍需进一步提升。

参考文献

[1] 何俊,葛红.王玉峰.图像分割算法研究综述[J].计算机工程与科学,2009(12):58?61.

[2] 马苗,刘艳丽.图像分割背景下群体智能优化算法的性能对比[J].云南大学学报:自然科学版,2012(4):401?407.

[3] 刘在德,常晋义,沈钧毅.一类双正交插值小波的参数化构造及图像编码应用[J].中国图象图形学报,2010(4):557?564.

[4] 胡敏,宋银龙.基于二维Otsu和模糊聚类的图像分割算法[J].计算机应用研究,2012(4):1563?1565.

[5] 邓廷权,焦颖颖.图像分割质量评价的二型模糊集方法[J].计算机工程与应用,2011(32):217?220.

[6] 彭正涛,方康玲,苏志祁.基于改进PSO算法的Otsu快速多阈值图像分割[J].现代电子技术,2011,34(6):10?14.

图像 阈值 算法