什么是OCR--慧智精品网

OCR（Optical Character Recognition，光学字符识别），是属于图型识别的一门学问。其目的就是要让计算机知道它到底看到了什么，尤其是文字资料。本文为您详细介绍OCR技术的发展、应用。

也许提到“OCR”，许多人都会觉得非常陌生，其实OCR是光学字符识别技术（Optical Character Recognition）简称，它是针对印刷体字符，采用光学的方式将文档资料转换成为原始资料黑白点阵的图像文件，然后通过识别软件将图像中的文字转换成文本格式，以便文字处理软件进一步编辑加工的系统技术。

看了这个概念，你可能会认为，这么深奥的一个技术和我肯定没有多大关系。不过你错了，就在你的身边，OCR技术的应用无处不在，而OCR也在时刻改变着你的生活……

OCR技术由来已久

1929年，德国的科学家Tausheck首先提出了OCR的概念，并且申请了专利。几年后，美国科学家Handel 也提出了利用技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成了现实。OCR的意思就演变成为利用光学技术对文字和字符进行扫描识别，转化成计算机内码。

在60～70年代，世界各国相继开始了OCR的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，

初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的识别系统，识别邮件上的，帮助邮局作区域分信的作业；也因此至今一直是各国所倡导的地址书写方式。

汉字OCR技术发展迅速

对于汉字的识别最早可以追溯到60年代。1966年，IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文，在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。

70年代以来，日本学者做了许多工作，其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000汉字的单体印刷汉字识别系统；80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平。

此外，日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。这些系统在方法上，大都采用基于K-L数字变换的匹配方案，使用了大量专用硬件，其设备有的相当于小型机甚至大型机，价格极其昂贵，没有得到广泛应用。

是什么

我国OCR技术自70年代才开始对数字、英文字母及符号的识别进行研究。

同国外相比，我国的光学字符识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年

代开始给予了充分的重视和支持，经过科研人员十多年的辛勤努力，汉字识别技术的发展和应用，有了长足进步：从简单的单体识别发展到多种字体混排的多体识别，从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别，解决了多体多字号混排文本的识别问题，对于简单的版面可以进行有效的定量分析，同时汉字识别率已达到了98%以上。

OCR的“三级跳”

慧智精品网

什么是OCR

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

汉唐时期的历史研究与考古探析

汉代河西邮驿的设置作用

中国汉代的宇宙观四个字

汉代婚礼礼仪知识有哪些

汉代选官制度的名称及其弊端

汉代风云人物易中天

简述汉代的文学成就

汉赋的历史背景与社会意义

汉代的文化特征

中国古代史阶段特征汇总

《汉古学概说》赏析

汉朝儒学思想演变

中国文化的汉唐时期

评价汉代的援礼入法

汉书读后感了解中国历史上汉代的经济文化等各方面发展和变革情况_百 ...

汉朝的文化特点

中国舞蹈史第3讲汉代舞蹈的发展

汉代宫廷文化和制度框架

哈佛中国史1早期中华帝国秦与汉

古代中国的秦汉文化发展

最新文章

【中国历史十五讲】读书说明与指导(吴树国)

红星照耀中国汉代青铜读后感

中国历史文化常识大全(最新整理200题)

《鸿门宴》背景、情节与教案探析

汉代文人诗的艺术成就

汉代刘向的作品

标签列表