2021·3(上)《科技传播》
134
作者简介:曲箫扬,副教授,长江职业学院,研究方向为移动网络优化。详解百度“1+X”计算机视觉应用开发初级认证
曲箫扬
摘 要 文章详细解读了百度“1+X”计算机视觉应用开发职业技能初级认证的考核方式、考核内容与考核标准,并以图像清洗与图像增广为案例详解了占比最重的图像预处理部分,给有意参加该类认证考试的同学提供了考证前的学习指南,以供参考。关键词 “1+X”;计算机视觉;百度
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2021)278-0134-03
2019年4月,教育部、国家发展改革委、财政部、市场监管总局印发了《关于在院校实施“学历证书+若干职业技能等级证书”制度试点方案》,部署启动“学历证书+若干职业技能等级证书”(简称1+X 证书)制度试点工作。“1+X”证书制度中的“1”为学历证书,其能全面反映学校教育的人才培养质量。“X”为若干
职业技能等级证书,其是毕业生、社会成员职业技能水平的凭证,能够反映职业活动和个人职业生涯发展所需要的综合能力。
笔者所在院校于2019年底成为首批百度“1+X”计算机视觉应用开发职业技能等级认证点。本文结合目前已公布的百度“1+X”计算机视觉应用开发初级技能等级认证标准,百度于2020年8月在南京举办的该认证师资培训内容以及部分样题,对该认证从以下4个方面进行详细解读。
1 考核方式
百度“1+X”计算机视觉应用开发职业技能分为3个等级:初级、中级、高级。三个级别依次递进,高级别涵盖低级别职业技能要求。其中该认证的初级等级认证采用闭卷考试,上机考试形式,包含理论考试和实操考试两个部分,总时长为2.5小时。其中第一场为理论考试,时长为1小时,第二场为实操考试,时长为1.5小时。理论考试满分100分,题型分布如表1所示:
表1 理论考试题型
题型题目数量题目分数单选题3060多选题1530判断题
5
10总题数:50
总分:100
实操考试满分100分,题目数量为3~5道。
2 考核内容
本认证的考核内容主要包含4个部分:视觉数据采集与整理,视觉数据预处理,视觉数据标注,视觉应用场景与部署。第一部分视觉数据采集与整理包括:图像理论基础、开放图形数据集、网络图像数据获取、文件管理与操作。第二部分视觉数据预处理包含内容最多,分别是图像常用库numpy、matplotlib、OpenCV 的使用,包括完成图像基本读写、图像算术运算、图像的按位运算、图像的颜变换、图像的几何变换、图像的直方图处理与绘制图像和文本。第三部分视觉数据标注包括数据标注概述和流程、图像标注工具和质量标准、图像分类标注、目标检测以及语义分割标注、视频分帧与标注、标注文件的格式转换。第四部分视觉应用场景与部署包括计算机视觉的基本任务、计算机视觉应用开发流程、百度AI 开发平台使用。四大部分在理论与操作考试中的占比如表2所示。可以看出第二部分视觉数据预处理内容最丰富,在理论考试与实操考试的占比上,权重最大,因此需要考生在学习与备考时对其更加重视。
表2 考核内容占比
模块
理论占比实操占比总比例1 视觉数据采集与整理30%30%30%2 视觉数据预处理40%50%45%3 视觉数据标注10%20%15%4 视觉应用场景与部署
20%
0%
10%
3 实操考试环境
涉及计算机视觉方面的开发工具、开发环境、标准工具与开发库因其极高的开放性呈现出蓬勃的生态和庞大的分支,其种类繁多进而导致安装实训环境非常复杂,对初学者十分不友好,又因其不少内容由国外开发者负责开发,维护和升级,在资源
《科技传播》
湖北省高考查分入口2021·3(上)
13512月结婚好日子
获取方面也较为困难,笔者首推国内的清华镜像网站作为下载来源。该完整实操考试环境所需各部分,需耐心反复安装卸载,才能最终完成彼此的兼容。以笔者在本校机房的安装经验,优先推荐新机房,或者系统较为干净的机房,完成统一安装。旧机房一方面电脑运行较慢,另一方面因其上有多个系统,多个其他专业教学软件,常常因环境变量等问题,导致安装失败。
表3是本认证涉及的实操考试环境。
4 重点内容详解
现从前两大部分中分别选取有代表性案例进行该部分内容的详解。4.1 视觉数据采集与整理
视觉数据采集与整理可由两类项目支撑,第一类是图像采集,第二类是数据文件整理先分别举例说明。
4.1.1 图像采集
在图像采集项目中,要求考生能够使用恰当的工具,包括使用数据抓取与解析库urllib,requests,BeautifulSoup,re 等,从网络上爬取并解析图像等视觉数据。具体要求包括使用urllib 库的request,
error,parse,robotparser 这四个模块。其中需要重点掌握quest 的urlopen 与urlretrieve 方法的使用。对于requests 库,首先要把它和上文提及的quest 模块区分开来,这两者名字类似,但是功能是不同的。考生需要掌握request 库的get,head,post,delete,options,put 函数,其中对于get 函数,在初级认证中只需要掌握使用get 函数获取网页信息即可。考生还须掌握使用BeautifulSoup4的find 与find_all 实现对HTTP 响应数据的解析。在正则表达式方面,要求掌握re 模块的complie,match,findall 函数。最后考生还能根据需要下载
合适的开放视觉类数据集。这里的开源图像数据集主要包括MNIST 手写字数据集,CIFAR10/100数据集,ImageNet 数据集,MS-COCO 数据集,PASCAL VOC 数据集,Cityscapes 数据集。接下来以“获取流浪狗图片”案例来说明图像获取的思路。
在中国大约有4 000万只流浪狗通过包括百度贴吧在内的网络交流平台实现寻主、救助与领养。本案例就是通过对百度贴吧数据爬取,快速获得流浪狗照片。具体思路如下:
1)导入quest, BeautifulSoup,os 库。2)使用quest.Request 设置请求。3)使用quest.urlopen 获取页面。4)使用BeautifulSoup 解析页面。5)查所有图片标签,获取图片地址。
6)通过request.urlretrieve 下载图片并保存。
4.1.2 图像文件整理
通常从网络上获取的图片,其格式与命名都较为混乱,还可能存在损坏的文件,这就需要对其进行整理。通过Python 脚本能够便捷的完成文件与目录的整理,减少人工投入。本认证要求考生能够使用Python 进行文件名批处理,并对文件目录进行整理。具体要求包括使用open,close 函数完成文件打开与关闭,使用read,readline,readlines,write,writelines 函数完成文件读写,使用tell,seek 函数完成文件的定位读写,使用os 库内的listdir,chdir,rename,path 函数与使用shutil 库的move,copy,cppyfile 函数完成对文件和文件夹的操作,以及使用glob 完成文件查。在上文的流浪狗案例中,我们通过网络爬取技术获得了很多流浪狗图像,但是可能部分图像辨识度不够,现在本案例中进一步对其处理,将图片按照大小分类,出那些高清的图片展示给有收养意向人,另外那些模糊的,不清晰的,信息缺失
表3 实操考试环境与简介
2021·3(上)《科技传播》
136
的图片可以向发帖人再索取完整信息。现将本案例的具体思路整理如下:
1)导入os 库,shutil 库。
2)使用os.chdir 切换至当前工作目录。3)使用os.listdir 生成文件列表。4)使用os.mkdir 创建目录。
地球一小时宣传标语5)使用size 获取图像大小。6)根据图像大小进行筛选,再通过ve 移动到指定目录下。4.2 视觉数据预处理
视觉图像获取与整理完成后,接下来就是对数据数据预处理,上文提及本认证的重点内容也是视觉数据预处理,占比接近50%。故接下来本文对该部分进行详细解读。对于视觉数据预处理的学习,可使用两大项目来支撑,它们分别是图像清洗与图像增广。
4.2.1 图像清洗
图像清洗是图像预处理的第一步,我们从网络上或者其他地方获取到的图像和数据,往往存在很多问题,例如图像大小不符,图像颜不符(例如只要彩图像,却混入黑白图像),混入其他物体图像,图像质量太差,图像名称混乱等问题。因此,我们需要通过对其进行清洗,把图片进行筛选,并保存到合适的目录中。
涉及到图像清洗的相关图像处理常用库包括利用numpy 库创建数组类型、获取对象常用属性,使用快捷方式创建数组,数据维度的变换和重塑,数组索引与切片,对数组的文件存取等。
普罗米修斯电影另一个常用的图形处理库是matplotlib,从其名字即可获知它的主要功能是绘制图像。本认证要求能够使用该库中的函数完成图表的绘制,图像与子图的显示,刻度、标签和图例的添加,以及文件保存。
大名鼎鼎的OpenCV 库的3.4版本,也在本认证有所涉及。认证要求掌握使用OpenCV 完成图像的读取、显示与保存,查看包括图像形状、图像大小等常用的图像属性。
现以“清洗所下载的大熊猫数据”为案例,来讲解图像清洗的思路。
现有一系列通过网络爬取获得的大熊猫图片,保存在download 目录下,需要通过脚本进行清理,去掉无法打开的文件,包括下载不完整的图片,格式为gif 的动图等。要求去除灰度图像(即黑白图片),
只保留彩图片。去除图片尺寸小于200×200像素的过小图片。最后,把保留下来的图像全部转换成jpg 格式,并按照顺序命名。
对该案例进行分析,得到以下思路:1)导入能够实现路径操作的os 库,图像处理的OpenCV 库,实现高级文件操作的shutil 库。
2)通过os.listdir 遍历文件。
3)通过cv2.imread 判断图片是否无效。4)通过img.ndim 判断图片是否为灰度图。5)通过img.shape 判断图片像素大小是否满足要求。
6)通过ve 移动图片。
7)通过img.imwrite 修改图片格式为统一的.jpg,并完成文件重命名。4.2.2 图像增广
第二个支撑项目是图像增广。当我们无法获得足够的图像来完成模型训练时,我们通常使用图像增广的方式开扩充训练数据。图像增广的方法有很多种,包括几何变换,颜变换,图像灰度变换等。需要根据实际场景选择合适的图像增广方法。
现以“对猫咪图像完成增广”为案例,来讲解图像增广的思路。
现有一组猫咪图像和一组非猫咪图像。为获得足够多的训练图像,请使用图像翻转,调整亮度,随机剪裁,增加高斯噪声等方法完成图像增广。该案例使用到的主要函数和解析思路如下:
1)导入os 库,cv2库,提供两大类8种常见随机函数的random 库,实现大型数组存储与运算的numpy 库。
2)使用size 变换尺寸,也可选用np 切片剪裁图像。
3)使用cv2.flip 随机方向翻转图像。
如何在excel中输入身份证号4)使用cv2.split,cv2.equalizeHist, 完成直方图均衡化。
5)使用cv2.add 增加亮度。
6)使用cv2.randn,cv2.add 增加随机噪点。7)使用cv2.imwrite 完成文件重命名和格式变换。
5 结语
自2019年开展的“1+X”证书制度试点工作将学历证书与职业技能等级证书结合起来,探索实施1+X 证书制度,是职教20条的重要改革部署,也是重大创新。本文从4个方面详解的百度1+X 计算机视觉应
用开发职业技能认证面向包括图像处理工程师,图像标注师,人工智能算法测试员(视觉方向),计算机视觉应用开发工程师,AI 算法工程师(视觉方向)等岗位,学生可根据自身需求选取相关等级参加认证。
参考文献
[1]李雅琪,冯晓辉,王哲.计算机视觉技术的应用进展[J].人
工智能,2019(2):18-27.5寸相片尺寸
[2]李虔,卢威,尹兴敬.1+X证书制度:进展、问题与对策[J].
国家教育行政学院学报,2019(12):18-25.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论