基于神经网络的图像分类模型的设计
第22期2022年11月无线互联科技
Wireless Internet Technology
No.22November,2022
作者简介:刘鹏(1993 ),男,河北承德人,工程师,本科;研究方向:大数据人工智能㊂
基于神经网络的图像分类模型的设计与实现
刘㊀鹏
(苏州盛景信息科技股份有限公司,江苏㊀苏州㊀215004)
摘㊀要:传统的图像分类方法是采用人工分类图像的即由人眼观察到彩特征进行特征分类的㊂随着人工智能时代的到来,图像自动分类处理技术已成为一项研究热点㊂研究以残差神经网络模型中的ResNet50为目标场景,以残差神经网络在图像分类中的应用及网络优化为切入点,将ResNet50神经网络模型应用到CIFAR10图像集的图像分类问题上,从优化网络模型和优化特征层抽取技术两个方面,对图像分类模型进行了改进㊂同时对梯度消失,过度拟合等一系列训练过程中可能会遇到的问题进行分析,通过在ResNet50模型的两个卷积层间增加Dropout 层和在图像加载到ResNet50模型前进行一系列图像增强技术以便能改善残差网络的结构,从而达到最好的图像分类效果㊂关键词:图像分类;残差神经网络;ResNet50模型;图像增强技术
0㊀引言
㊀㊀图像分类技术在图像检索㊁用户搜索行为分析㊁人脸识别等领域有着广泛的应用前景㊂目前国内
外学者对图像分类和识别方向的研究都是基于开放的图像数据集,例如有COCO [1]㊁CIFAR10[2]㊁MNIST [3]㊁ImageNe [4]和Fasion -MNIST 等图像集,其中,COCO 图像集是微软发布的大规模对象检测㊁分割和字幕数据集,MNIST 图像集是训练各种数字图像识别,同时也是最先用在卷积神经网络的数据集,ImageNe 图像集是一个用于视觉物品识别研究的大型数据集,包含了超20000个类别和超1400万个图像以及每个图像上的标注㊂Fasion -MNIST 图像集是用于衣服的识别㊂本文采用改进后的卷积神经网络模型,选取包含了10个分类由60000个32ˑ32彩图像组成的CIFAR10图像集作为训练集,提出将图像增强技术应用在图像集上,通过对图像的预处理从而达到增强图像特征层信息的目的,有效地避免了训练集中图像的冗杂,从而实现对CIFAR10图像集中所有图像的有效分类㊂1㊀残差网络
㊀㊀2015年,何恺明在CNN
的神经网络模型中引入了一种称为残差网络的新结构(ResNet)[5],残差网络的技术如图1所示,可以实现连接跳过几层的训练并直接连接到输出㊂
图1㊀残差块
残差网络是为了在进一步加深网络结构的同时,能够学习到更精细的特征从而提高网络精度,首先实现的一点就是恒等映射H (x )=x ,所以何恺明等人将网
络设计成H (x )=F (x )+x ,即F (x )=H (x )-x [5]㊂这样随着网络的加深,F (x )便会逼近于0,从而实现恒等映射㊂残差块的优点是如果有任何层损坏了架构的性能,那么它将被正常化跳过㊂因此,使用残差块后可以训练得到非常深的神经网络,而不会因梯度消失或者爆炸梯度而导致的问题㊂ResNet50是一个易于使用和优化㊁具有更小的卷积核的残差学习网络框架,因此,本文将采用基于残差神经网络框架的ResNet50网络作为图像分类训练的模型㊂
2㊀图像数据集和图像数据增强技术2.1㊀图像数据集CIFAR10
㊀㊀CIFAR10是一套典型的用来训练机器学习与电脑视觉演算法的图像集[2],其包括60000幅32ˑ32的10种不同类型的彩图片,这10个类别分别是飞机㊁汽车㊁鸟类㊁猫㊁鹿㊁狗㊁青蛙㊁马㊁船和货车㊂每一类均有6000幅图片,其中5000张的训练图像和1000张的测试图像㊂由于CIFAR10中的图像分辨率为32ˑ32像素,因此该数据集通常被科研人员用于测试各种网络,且各种卷积神经网络也往往最擅长识别CIFAR10中的图像㊂因此本文所设计的图像分类系统选取CIFAR10作为图像分类模型的数据集㊂2.2㊀图像数据增强技术
㊀㊀为了提高数据集的分类准确率,以鸟的类别为例,本文将对此采取了彩空间转换和噪声注入的图像数据增强技术㊂
2.2.1㊀彩空间转换
㊀㊀简单的彩强化就包括了隔离每一个彩通道,比如,使用RGB 通过隔离该矩阵和在其他的彩通道加入二个零矩阵,就能够使图形迅速地转化为它在一个彩通道上的表现㊂本文将通过grey,hsv,yuv3种不同的颜转换来进行展示[4]㊂2.2.2㊀噪声注入
㊀㊀噪声注入包含了一个随机值矩阵,该矩阵一般是从高斯分布中提取的㊂本文将噪声矩阵加入图像中
35
可以使得优化后的卷积网络模型获得更多的特征㊂可以清晰地看出加入噪声和不加噪声在图片上的区别㊂
3㊀图像分类模型
3.1㊀图像分类模型构建
㊀㊀基于CIFAR10图像集的图像分类模型的构建流程如图2所示,分为以下3步骤㊂
步骤1:需要从本地加载图片,并将图片进行预处理操作㊂
步骤2:建立ResNet50神经网络模型,并利用迁移学习技术来提取图片的特征参数㊂
步骤3:将输出的特征参数进行特征匹配,设置CIFAR10图像集中的10个分类对应10个不同范围,如果输出的参数在某一范围便返回某一类别
图2㊀图像分类模型构建流程
3.2㊀模型训练
㊀㊀为了更好地优化模型,以便能提升图像分类识别
的准确率,本次模型训练将分为以下两个阶段进行㊂
阶段1:对已有的模型参数进行调整㊂由于模型中
最后的特征输出层为2048维,所以在进行外积操作时
可能会因维度过大导致显存爆炸,因此,利用1ˑ1卷积
将特征输出的维度降成1024维,并添加正则化技术和
激活函数来避免过拟合和梯度爆炸㊂由于ResNet50的
训练模型使用迁移学习进行预习的,因此可以将预先
训练的权重装入已建立的ResNet50模型中,在提高训
练时间的前提下,达到较好的分类效果[6]㊂
阶段2:通过对阶段1中出现的损耗和精度进行观
察,并对各权重进行重新调整㊂利用ResNet50的预训
练模型,对残差神经网络进行初值重建,固定预训练卷
积层的参数,只训练未参加预训练的卷积层,以便获得
较好的残差网络参数;采用模型优化技术,在其之后加
入Dropout层和RELU线性整流函数,逐步对网络进行
优化;最后采用反向传播算法对已优化好的残差神经
网络进行加权更新,直到网络收敛㊂
3.3㊀模型训练结果
㊀㊀由于Pytorch-lightning可以很好地将训练过程进
行复现,考虑到训练时间和算力的消耗,本次图像分类
模型第二阶段仅迭代50次,通过Tensorboard工具将预
测结果和模型损失以可视化的方式进行展现㊂
这里,Train_loss为训练集的损失量,经历了一次迭
代之后,损失率便出现了大幅度下降,这是因为迁移学习
已经预先加载好权重㊂Train_acc为训练集的准确率,经
历了50次迭代后,训练集的准确率已经逼近于百分之九
十,由于实验时迭代次数较少,从而导致了准确率产生波
动,未能达到更高的准确率㊂Val_loss为测试集的损失,
在经过几轮迭代后,损失率降至1.5左右,和训练集的损
失率基本持平㊂Val_acc为测试集的准确率,由于测试集
图片数量相对较少,但其准确率也高达到95%,其幅度
在经历了几次迭代后逐渐转为平稳㊂
4㊀图像分类测试结果
㊀㊀通过加载上文训练得到的图像权重值和构建的
ResNet50模型,图像分类实现步骤:
步骤1:为了增加结果的准确率,在进行分类识别
前利用图像增强技术对图像进行预处理㊂
步骤2:分别加载训练阶段的残差神经网络和训练
好的权重㊂
步骤3:将权重和图像进行匹配,获得图像的所属
类别及识别准确率㊂
步骤4:利用matplotlib库将图像和分类结果以可
45
视化进行展示㊂
最后,通过CIFAR10图像集来验证本文模型的图像分类结果是否达到需求,下列所示为本文模型在CIFAR1中的识别结果,从表1的结果可以看出10类图像结果均达到了90%以上的准确率㊂
表1㊀图像分类测试结果
图像类别准确率/%
鸟90.5
飞机95.1
猫93.9
卡车95.3
汽车95.1
青蛙92.8
狗90.5
鹿94.2
轮船93.9
马95.15㊀结语
㊀㊀本文设计的图像分类模型引入RELU激活函数和正则化技术来对整个模型进行优化㊂通过ReLU激活函数可以使网络随机梯度下降和反向传播算法更加有效,避免梯度爆炸和梯度消失的问题,同时在池化层的后面添加Dropout层来防止网络过拟合㊂为了加快深度神经网络的学习,可以在两个卷积层之间施加附加的限制,从而使各层网络的输入平均值与方差值在某一区间㊂
从图像分类预测结果可以看出,本文设计的图像分类神经网络模型应用到CIFAR10图像集上的图像分类识别准确率高,具有较好的鲁棒性,识别准确率基本能够达到90%以上㊂但由于硬件限制,本文实验所采用的GPU环境都部署在云端,并不能很好地调动GPU性能,如果有计算性能更好的硬件环境和
设备,在满足最大显存的要求下,通过提高batch_size和增加迭代次数又或者更换神经网络模型,来提高训练的准确率㊂
[参考文献]
[1]LIN T Y,MAIRE M,BELONGIE S,et al.Microsoft coco:common objects in context[C].Zurich:Proceedings of European Conference on Computer Vision,2014.
[2]魏旭鸿.基于分布一致性约束的卷积神经网络迁移学习[D].上海:上海交通大学.
[3]赵晓娟.手写体数字及英文字符的识别研究[D].长春:东北师范大学,2010.长春分类信息
[4]陈聪.基于深层网络的城市街道场景的语义分割的方法研究[D].西安:西安电子科技大学,2019.
[5]HINTON G E,KRIZHEVS A,SUTSKEVER I.Imagenet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012(25):1106-1114.
[6]储颜雨.基于深度残差网络的细粒度图像分类研究[D].南京:南京邮电大学,2020.
(编辑㊀傅金睿) Design and implementation of image classification model based on neural network
Liu Peng
(Suzhou Shengjing Information Technology Co.,Ltd.,Suzhou215004,China)
Abstract:The traditional method of image classification is to classify images by human eyes.With the advent of the era of artificial intelligence,image automatic classification processing technology has become a research hotspot.Taking ResNet50in the residual neural network model as the target scene,and taking the application of residual neural network in image classification and network optimization as the entry point,the ResNet50neural network model is applied to image classification of CIFAR10image set from two aspects of optimization network model and optimization feature layer extraction technology.The image classification model is improved from two aspects:optimizing the network model and optimizing the feature layer extraction technology.At the same time,a series of problems that may be encountered in the training process such as gradient disappearance and over-fitting are analyzed.By adding Dropout layers between two convolution layers of ResNet50model and applying a series of image enhancement techniques before images are loaded into ResNet50model,the structure of residual network can be improved,so as to achieve the best image classification effect.
Key words:image classification;residual neural network;ResNet50Model;image enhancement techniques
55

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。