隹Isl^iSls V12021年第02期(总第218期)
基于Faster R-CNN的模糊图像复杂文字自动识别
王颖
(厦门工学院,福建厦门361000)
摘要:针对传统模糊图像复杂文字自动识别方法存在准确性差的问题,提出了基于Faster R-CNN的模糊图像复杂文字自动识别。在FasterR-CNN网络模型结构的基础上,考虑到复杂文字边缘与背景边缘之间存在的颜差异,比较复杂文字区域在模糊图像空间中每一个颜分量的对比度,选择对比度最高的颜分量进行去噪处理,通过OCR软件实现了模糊图像复杂文字的识别。实验测试结果表明,设计方法可以提高模糊图像复杂文字识别的准确率,缩短识别时间,大大提高了模糊图像复杂文字的识别性能。
关键词:FasterR-CNN;模糊图像;复杂文字;自动识别
中图分类号:TP391文献标识码:B文章编号:2096-9759(2021)02-0070-03
甘南景点0引言
数字照相机、数码摄像机等图像釆集设备在图像视频获取中的使用越来越广泛,使人们能够更加方便地通过相关软件技术,釆集和处理各种模糊图像和视频中的文字数据叫如何对海量的模糊图像信息进行识别,得到需要的内容,成为科学技术领域亟待解决的问题。常规的文字识别方法是基于人工标注的关键字进行识别,不适合于分析和识别海量的模糊图像复杂文字内容冋。现有的模糊图像复杂文字识别方法主要有四大模块:模糊图像复杂文字检测模块,模糊图像复杂文字增强模块,模糊图像复杂文字提取模块,OCR软件识别模块。模糊图像复杂文字增强模块主要采用多帧图像集成的方法,对多个模糊图像帧检测到的同一复杂文字区域进行融合,得到背景更加平滑、笔画更加清晰的复杂文字图像;模糊图像复杂文字提取模块对复杂文字区域图像进行处理,使复杂文字从背景中分离出来,并通过OCR软件识别得到二值文字图像;OCR软件识别模块对二值文字图像进行识别,完成模糊图像到复杂文字的转换。其中,OCR是一种较为成熟的技术,目前已经成功地应用于市场。现有的研究主要集中在三个方面:模糊图像复杂文字检测,基于多帧技术的模糊图像复杂文字增强和模糊图像复杂文字提取叫
基于以上研究背景,本文将Faster R-CNN应用到了模糊图像复杂文字自动识别方法设计中,从而提高了模糊图像复杂文字自动识别性能。
1模糊图像复杂文字自动识别方法设计
1.1建立FasterR-CNN网络模型
本文提出了一种利用卷积神经网络CNN实现复杂文字在模糊图像中的提取,该方法能够与整个FasterR-CNN网络共享整个模糊图像的卷积特征,且提取过程的耗时非常短叫该FasterR-CNN网络是_种全卷积网络(FullyConvolutional Network,FCN),它在CNN特征提取网络上增加了2个卷积层,这样不仅可以完成端与端之间的建议区域生成任务,又可以预测出建议框所处的具体位置和目标的得分。在VGG16网络模型中,初始图像通过5个卷积模块(卷积层+激活层+池化层)得到512个复杂文字特征图,然后区域建议网络(RPN)根据共享的复杂文字特征图生成候选区域并对其进行分类。
FasterR-CNN网络的核心思想是利用CNN卷积神经网络来直接生成一个推荐的区域,所釆用的方法基本上是只需在卷积层的最后一层上滑动一个滑动窗口,然后,接下来的anchor 机制和边界回归就可以得到一个多尺度的推荐区域。其运行的机制是先将每个复杂文字特征点映射回模糊图像的感受中心,作为一个基准点,然后在该基准点上选择具有不同面积和长宽比的k个不同的anchor,anchor的面积大小分别为1282、2562⑸22,长宽比分别取值为1、0.5、2。对于正反样本的划分,需要检查训练集中每个模糊图像中的所有anchor。分割过程如下:对于每一个标定的真实区域,将与之重叠比例最大的anchor记为正样本,确保每一区域至少与一个正样本anchor相对应;对于其余的?anchor,如果它与每一个标定区域重叠比例大于0.7,将其记为正样本,则每个正样本anchor可能与多个正样本anchor相对应,但每个正样本anchor只能与一个标定的真实区域相对应;如果它与任何标定区域的重叠比例均小于0.3,将其记为负样本;将未标记的正样本an-chor和跨越模糊图像边界的anchor也不要删除。并
非所有的anchor都被用于训练,每幅模糊图像随机抽取256个anchor,前景和背景样本分别为128个和128个,达到正负比例1:1。当图像中的正样本数量小于128时,多使用一些负样本来满足256个区域的训练需求。
模型的训练方式分为两种:分阶段(alt-opt)训练和端到端(end-to-end)训练。采用端到端(end-to-end)的训练模式,使端到端(end-to-end)的存储器体积变小,不仅加快了训练速度,还提高了识别准确率。目前,FasterR-CNN网络模型提供了3个训练网络模型,ZF模型,VGG_CNN_M_1024模型,VGG16模型。虽然VGG16模型占用GPU显若禹空间较大,但可以更
深入地提取GPU模型中较好的特征。
按照FasterR-CNN网络模型的结构,将网络中13个卷积层划分为5个组,每一组都由Maxpool层连接起来。利用非线性LU激活函数对Faster R-CNN网络卷积层进行激活,得到256x256的输入图像。由于每个卷积层包含3x3的卷积核大小和1的步长,因此该卷积层不改变特征图的大小。每一池化层都采用2x2窗口尺度的Max pool形式,步长设置为2,因此长宽变为原来的1/2,经过4个池化层处理之后,特征图的大小为16x16,最后一个卷积层输出512个16x16的特征图,RPN 和FastR-CNN共享该特征图。在此基础上,通过对13个卷积层进行特征提取,目标特征越深、通道越多,检测效果越好。1.2检测模糊图像复杂文字
目前大多数图像边缘检测方法都是针对模糊图像的『分量进行边缘检测,但是釆用这种方法不一定具有一定的合理
收稿日期:2020-12-22
作者简介:王颖(1984-),女,福建厦门人,硕士研究生,讲师,研究方向:软件工程。
70
Changjiang Information&Communications王颖:基于Faster R-CNN的模糊图像复杂文字自动识别
性,模糊图像上的复杂文字边缘非常明显,『分量上的复杂文
字边缘非常模糊。因此,本文定义了累积边缘图由在原模糊
图像的yt/v各分量上检测到的复杂文字边缘合并而得。与在
单一颜分量上检测到的边缘图相比,累积边缘图中的复杂
文字边缘信息更加丰富,也更有利于复杂文字的检测。假设
原模糊图像累积边缘图:
E(x,y)=max(S H,S y,S LD,S KD),ae{Y,U,V}(1)
其中,S”表示釆用Sobel边缘检测算子得到的水平边缘强
度值,S”表示采用Sobel边缘检测算子得到的垂直边缘强度
值,Sa表示釆用Sobel边缘检测算子得到的左对角线边缘强
度值,Sa表示釆用Sobel边缘检测算子得到的右对角线边缘
强度值,Y,U,V表示模糊图像的分量。
在模糊图像中,复杂文字边缘都比较明显,具有非常大的
强度值,如果边缘图中的复杂文字强度值小于T辭,那么将其
认为是背景边缘,并将E(x,y)设为0。
在模糊图像的边缘中,准确定位复杂文字区域,考虑到复
杂文字边缘与背景边缘之间存在的颜差异,对累积边缘图E
着,公式为:
EROB(x,_y)=・
(0,0),E(x,y)>0
E(x,y)=0
(2)
其中,E,表示与E对应的彩边缘图,E'RCB(.x,y)表示边缘点在Z中的对应的颜。
将E'中的点,根据不同的颜值将其分解到边缘图中,假设E'中的边缘点一共存在C种颜,每一种颜对应Faster R-CNN网络模型的一个结点,将s(i,Q定义为:
s(i,k)=-dis(i,k\i^k(3)其中,dis(i,k)表示颜i与颜&之间的差异值,s(.i,k)的值越大,说明颜i与颜k越接近的值越小,说明颜i与颜k之间的差异越大。
通常,复杂文字区域的边缘比较密集,通过对模糊图像边缘图的水平和垂直投影可以确定复杂文字区域的位置。为此,本文釆用投影的方法对模糊边缘子图像进行复杂文字的定位。但在检测到的复杂文
字区域中也存在着一些错误的复杂文字区域,为了消除这些错误的复杂文字区域,本文釆用了一种基于SVM的综合过滤方法,将所定位的复杂文字区域划分为正确的文字区域和错误的文字区域,将所检测到的复杂文字区域舍弃掉,从而大大提高复杂文字区域检测的准确性。
1.3识别模糊图像复杂文字
基于现有方法存在的缺陷,本文首先对模糊图像中的复杂文字区域进行处理,将复杂文字从模糊图像背景中分割出来,得到OCR软件可以识别的复杂文字。在此基础上,针对复杂文字区域在模糊图像中各成分间的对比度的不同,釆用了两值化(binarization)方法,即选择对比度最大的颜成分(noise removal)进行二值化,从而达到较好的效果;在此基础上,考虑了复杂文字笔画和噪声之间的颜差异,釆用了Faster R-CNN网络模型,将噪声消除效果优于现有方法。
制作贺卡的方法基于以上分析,比较复杂文字区域在模糊图像空间中每一个颜分量的对比度,选择对比度最高的颜分量进行二值化处理,即:
C.=max(C r,C<,,C K),a€{Y.U.V}(4)
其中,G、Cu和Cv表示复杂文字区域在模糊图像空间中各个颜分量上的对比度,C。表示G、C。和C”中的最大值,因此将复杂文字区域在模糊图像空间中的a分量进行二值化处理,即: 6=工恥*=S Z以,;丿)彳<、
SsD2丿其中,民、和E”表示复杂文字区域在模糊图像中各个颜分量上的边缘强度,由于复杂文字通常出现在模糊图像的中央部分,将处于边缘强度图中央部分的边缘强度值进行累加计算,得到C”G的值越大,说明复杂文字区域在a分量上的对比度越大。对于模糊图像中的每一个像素点,根据像素点的灰度变化情况,计算复杂文字的局部阈值,从而来判断像素点是否属于复杂文字。
复杂文字区域被二值化处理之后,被划分为两个部分:即前景和背景,前景是包含复杂文字笔画和噪声的连通成分的集合。为有效识别模糊图像中的复杂文字,需要对二值处理后的复杂文字进行去噪处理。已有的去噪方法通常是连通分量分析和灰度一致性分析。但是,这两种方法在实现去噪时不会一直有效,例如,当噪声块的几何形状和灰度值都非常接近于复杂文字的笔画时,这些噪声块就无法被去除。一般而言,模糊图像中复杂文字的笔画总是具有非常接近的颜,而复杂块的笔画和复杂文字的笔画总是具有不同的颜。所以,根据复杂文字笔画和噪音之间存在的颜差异,釆用聚类的方法将连接部分划分为两个种类:一类是字笔画,另一类是噪音。因此,噪音这一类就会被直接移除,而笔画这一类则会被保留。釆用连通区域分析法和灰度一致性分析法来去除模糊图像中的噪声,对于不能去除的噪声,釆用基于Faster?R-CNN网络模型来去除,对模糊图像进行连通分量分析和灰度一致性分析后,剩余的噪声较小,还原到原图像上的颜也较简单,可以通过Faster R-CNN网络将噪声和复杂文字笔画分成两类,去除其中一种的噪声,大大提高了模糊图像复杂文字的识别效果。
经去噪处理之后,模糊图像的连通部分只剩下复杂的文字笔画,或者含有很小的噪声,通过OCR软件
对模糊图像进行识别,可以获得较好的识别效果。
2实验对比分析
为了验证基于Faster R-CNN的模糊图像复杂文字自动识别方法的有效性,采用传统模糊图像复杂文字自动识别方法作对比,从识别准确率和识别时间两个方面,进行了实验测试。
模糊图像复杂文字自动识别准确率和识别时间测试结果如表1所示。
表1识别准确率和时间测试结果
从表1的结果可以看出,基于FasterR-CNN的模糊图像实验次数
准确率/%识别时间/S
慈母情深课件传统方法本文方法传统方法本文方法178.8389.3610.69 5.89
276.4592.479.68 6.47
377.3695.6411.46 5.96
斗77.4293.4610.12 4.24
570.1495.389.72 5.37
67&9296.738.435」9
775.8394」910.37 5.08
874.1990.369.34 4.97
978.6188.7410.28 4.67
1073.6489.4812.38 5.84
71
隹Isl^iSls V12021年第02期(总第218期)
基于快速点特征直方图的三维点云配准算法
祝瑞红,黄昶
(华东师范大学通信与电子工程学院,上海200241)
摘要:三维点云配准算法是三维场景模型重建的重要研究部分。针对传统迭代最近点算法(ICP)对点云进行配准时容易陷入局部最优的问题,本文研究了基于局部特征点改进的ICP算法。文章分析了点特征直方图(PFH)和快速点特征直方图(FPFH)两种局部特征点,得出了FPFH具有比PFH更低的时间复杂度的结论,因氏通过FPFH特征描述子对两片初始点云进行粗配准,使其具有较好的初始位姿,最后用经典的ICP算法■进行精配准。实验结果表明,基于FPFH特征点改进后的ICP算法能提供较好的点云初始位姿,一定程度上避免了配准时陷入局部最优的问题,比传统ICP算法具有更好的配准效果。
关键词:三维重建;ICP算法;PFH;FPFH;三维点云匹配;特征点
麻辣小龙虾怎样做中图分类号:TP391文献标识码:B文章编号:2096-9759(2021)02-0072-03
0引言
随着视觉传感器技术的飞速发展,基于视觉传感器的三维重建技术在汽车AR、机器人导航、智能抓取、自动化等领域具有十分广泛的应用。三维重建技术旨在通过视觉传感器获取物体的数据图像,并对此数据图像进行处理分析,推导出现实环境中物体的三维信息叫3D点云配准算法作为三维重建技术的主要研究部分,对点云配准算法的研究具有重要意义叫
经典迭代最近点算法(Iterative Closest Point,ICP)B1最初由Besl和Mckey提出,是一种基于轮廓特征的
点云配准方法。在经典ICP算法基础上,后人又提出了多种ICP改进算法,如:基于八叉树结构改进的ICP算法和基于釆样一致性改进的点云配准技术,前者改进了点云搜索速度,后者改进了算法收敛性速度。但是上述改进ICP算法依然没有解决在点云初始位姿相差较大的情况下容易陷入局部最优解的问题。因此本文研究了基于局部特征点改进的点云配准方法,分析了点特征直方图(Point Feature Histograms,PFH)和快速点特征直方图(Fast Point Feature Histograms,FPFH)141两种局部特征点,该算法通过特征描述子先对点云进行粗配准,调整点云的初始位姿,使位姿相差较小,以此有效改善ICP算法的配准效果。
1粗配准
使用ICP算法精配准前,先根据局部特征点进行粗配准,为精配准提供一个良好的初始位姿。
1.1粗配准算法整体流程
(1)先对两片点云进行降釆样和法线估计,然后为每一个点计算特征点。
(2)从待配准点云中选取n个釆样点,在目标点云中查与待配准点云的釆样点具有相似特征点的一个或多个点,从中随机选取一个作为待配准点云和目标点云的对应点。
⑶计算对应点之间的冈!1性变换矩阵,并在整个点云上进行验证,计算当前配准变换矩阵的性能。
下面主要针对PFH和FPFH两种局部特征点进行分析,探究适合本文粗配准的局部特征点。
1.2点特征直方图
香葱点特征直方图(PFH)是对中心点邻域范围内空间差异的一种量化,通过数理统计的方法获得一个用于描述中心点邻
收稿日期:2020-12-2l
作者简介:祝瑞红(1995-),女,河北邯郸人,硕士研究生,主要研究方向
复杂文字自动识别方法在识别准确率方面,明显优于传统模
糊图像复杂文字自动识别方法,经计算,基于Faster R-CNN的
模糊图像复杂文字自动识别方法在整个测试过程中,识别准
确率的平均值为92.581%,传统模糊图像复杂文字自动识别
方法在整个测试过程中,识别准确率的平均值为76.139%。
传统模糊图像复杂文字自动识别方法的识别时间基本都
超过了10秒,只有三次测试结果在10秒以内,说明该识别方
法在识别时间并没有太大优势,而基于Faster R-CNN的模糊
图像复杂文字自动识别方法却将识别时间控制到了6.5秒以内,
可以有效缩短模糊图像复杂文字的识别时间。
3结语
本文提出了基于Faster R-CNN的模糊图像复杂文字自动
识别,基于Faster R-CNN网络模型,检测了模糊图像中的复杂
文字,结合模糊图像复杂文字识别流程设计,实现了模糊图像
复杂文字的识别。结果显示,该识别方法可以有效提高模糊信号检测与处理。
H---1---1---1—H11---1—-1---1---1---1—H11---1—-1---1---1----图像复杂文字的识别性能。
工商银行公务员卡参考文献:
[1]冯小雨,梅卫,胡大帅.基于改进Faster R-CNN的空中目
标检测[J].光学学报,2018,38(06):250-258.
[2]钟小莉,樊吉亮.离焦模糊图像序列微弱运动目标自动检
测仿真[J].计算机仿真,2019,36(007):419-422.
[3]陈阳,周圆.一种基于深度学习模型的图像模糊自动分析
处理算法[J].小型微型计算机系统,201&39(003):584-590.
[4]张文勇.复杂背景下彩图像目标精细识别仿真[J].计算
机仿真,2018,35(09):433-436.
[5]孙世宇,李詰,李建增,等.基于卷积神经网络的无人机图
像模糊类型识别[J].火力与指挥控制,2020,045(002):1-5.
[6]杨滨,张涛,陈先意.基于深度学习的图像局部模糊识别[J].
应用科学学报,2018,36(002):321-330.
72
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论