最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

OCR光学字符识别技术

IT圈 admin 38浏览 0评论

2024年5月5日发(作者:原爰)

1 OCR简介

OCR是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简

单地称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取

纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编

码,并按通用格式存储在文本文件中,从根本上改变了人们对计算机汉字人工编码录入的

概念。使人们从繁重的键盘录入汉字的劳动中解脱出来。只要用扫描仪将整页文本图像输

入到计算机,就能通过OCR软件自动产生汉字文本文件,这与人手工键入的汉字效果是一

样的,但速度比手工快几十倍。比如用手机给名片拍照,名片中的姓名、电话号码等信息

就会自动识别进入到手机中,从此查询、拨打轻而易举。目前支持该功能的手机主要有摩

托罗拉A1200、索爱P990和LG G832等。所以,OCR是一种非常快捷、省力的文字输

入方式,也是在文字量比较大的今天,很受人们欢迎的一种输入方式。

2 OCR的发展概况

20世纪70年代初,日本的学者开始研究汉字识别,并做了大量的工作。我国研究汉

字识别的起步比较晚,20世纪70年代末才开始进行OCR的研究工作。早期的OCR软件,

由于识别率及产品化等多方面的因素,未能达到实际要求。同时,由于硬件设备成本高,

运行速度慢,也没有达到实用的程度。只有个别部门,如信息部门、新闻出版单位等使用

OCR软件。1

986年以后我国的OCR研究有了很大进展,在汉字建模和识别方法上都有所创新,在

系统研制和开发应用中都取得了丰硕的成果,不少单位相继推出了中文OCR产品。

进入20世纪90年代以后,随着平台式扫描仪的广泛应用,以及我国信息自动化和办

公自动化的普及,大大推动了OCR技术的进一步发展,使OCR的识别正确率、识别速度

满足了广大用户的要求。

目前,比较流行的OCR软件很多,英文OCR主要有OmniPage,中文OCR主要有

清华紫光OCR、清华文通OCR、汉王OCR、中晶尚书OCR、丹青OCR、蒙恬OCR等。

尽管汉字字量大、字形复杂,但OCR技术已经走向成熟。许多OCR软件不仅能识别黑白

印刷体汉字,还能识别灰度和彩色印刷体汉字,识别速度很快,识别正确率达到了99%以

上;可识别宋体、黑体、楷体等多种字体的简、繁体;可对多种字体、不同字号的混排进

行识别;有些OCR软件还能识别图像、表格。与此同时,对于手写体汉字识别的研究也取

得了很大进展,正确识别率已达到了70%以上。

3 OCR系统的组成

汉字识别软件OCR的功能是将各种录入汉字、印刷体或手写体中每个汉字的图形或图

像通过计算机辨认出来,并标出汉字类别代码。因此,汉字识别归根结底是一个图像识别

问题。由于汉字信息量很大,具有不同的字形、字体,而且结构复杂,因此汉字识别的过

程极其复杂。由于扫描仪的普及与广泛应用,OCR软件只需提供与扫描仪的接口,利用扫

描仪驱动软件即可。因此,OCR软件主要是由图像处理模块、版面划分模块、文字识别模

块和文字编辑模块等4部分组成。

1)图像处理模块

图像处理模块主要具有文稿扫描、图像缩放、图像旋转等功能。通过扫描仪输入后,

文稿形成图像文件,图像处理模块可对图像进行放大,去除污点和划痕,如果图像放置不

正,可以手工或自动旋转图像,目的是为文字识别创造更好的条件,使识别率更高。

2)版面划分模块

版面划分模块主要包括版面划分、更改划分,即对版面的理解、字切分、归一化等,

可选择自动或手动两种版面划分方式。目的是告诉OCR软件将同一版面的文章、表格等分

开,以便于分别处理,并按照怎样的顺序进行识别。

3)文字识别模块

文字识别模块是OCR软件的核心部分,文字识别模块主要对输入的汉字进行"阅读",

但不能一目多行,必须逐行切割,对于汉字通常也是一个字一个字地辨认,即单字识别,

再进行归一化。文字识别模块通过对不同样本汉字的特征进行提取,完成识别,自动查找

可疑字,具有前后联想等功能。

4)文字编辑模块

文字编辑模块主要对OCR识别后的文字进行修改、编辑,如系统识别认为有误,则文

字会以醒目的红色或蓝色显示,并提供相似的文字供选择,选择编辑器供输出等。

4 OCR识别的一般步骤

(1)文稿扫描后,刚开始出现在视窗中的要识别的文字画面很小,首先选择"放大"工具,

对画面进行适当放大,以使画面看得更清楚。必要时还可以选择"缩小"工具,将画面适当

缩小。

(2)如果画面需要旋转90°,180°或270°,可使用"旋转图像"工具旋转图像。如果文字

画面倾斜,可选择"倾斜校正"工具,将画面调正。

(3)识别时选择"设定识别区域"工具,在文字画面上框出要识别的区域,这时也可根据

画面情况框出多个区域。如果所框区域有误,则可使用"删除识别区域"工具,删除所选识

别区域。

(4)为了提高识别率,如果所选识别区有杂点或有不能识别的图像,则可选择"擦除图

像杂点"工具,将杂点一点一点地擦除。如果需要成片地擦除,则可选择"擦拭图像块"工具。

(5)点击"识别"图标,则OCR显示正在进行文字切分,然后转入"正在识别"画面,将识

别的文字逐步显示出来,"文稿校对"窗口。

许多OCR软件都具有文字修改功能,被识别出可能有错误的文字,用比较鲜明的颜色

显示出来,并且可以进行修改。

(6)将识别后的文件存储成文本(TXT)文件或Word的RTF文件。

一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继

续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料

的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。

5 OCR技术的应用及其优势

目前OCR软件与扫描仪的搭配已应用到信息化时代的多个领域,如数字化图书馆,各

种报表的识别,以及银行、税务系统票据的识别等。随着网络化、信息化的发展与普及,

其应用范围将越来越广泛。

无论是让计算机对文字进行排版输出,还是要让计算机认识它看到文字,所有这一切

都是为我们生活服务。信息化和数字化的进程,让我们不再安于用十指敲击键盘来输入数

据。人们希望能将时间和精力投入到更具创造性的工作中去,因而希望计算机等辅助设备

能更具智慧。OCR技术就是其中的一项,跟打印技术相对,它是让计算机认字的一种技术,

这远比打印复杂得多。

经济竞争带来更多的商务活动,每个活动上名片都是必不可少的主角,名片的管理产

品也应运而生,名片识别管理工具同样也是以OCR技术为核心的产品。通过名片识别工具

将名片进行扫描、识别、分类,不仅能够导入手机、PDA等,而且还能为名片信息进行备

份,不用担心遗失。文通e-card就是一款优秀的名片识别管理产品,OCR技术能把商务

生活打理得有条不紊,节约更多的时间。现在,几乎所有的扫描仪和一体机上都配装OCR

软件,比如HP、UNISCAN、EPSON、CANON、 LENOVO等扫描仪厂商捆绑的就是文

通TH-OCR。

在扫描仪市场上,许多类型的办公和家用扫描仪均配有OCR软件,如紫光的扫描仪

配备了紫光OCR,中晶的扫描仪配备了尚书OCR,Mustek的扫描仪配备了丹青OCR等。

扫描仪与OCR软件共同承担着从文稿的输入到文字识别的全过程。 文稿扫描在办公领域

中经常用到,即将报纸、杂志等媒体上刊载的有关文稿通过扫描仪进行扫描,随后进行OCR

识别,或存储成图像文件,留待以后进行OCR识别,将图像文件转换成文本文件或Word

文件进行存储。

此外,数字化信息的存储、传输、不仅成本低、效率高,而且能够适应排版,网络传

输等不断发展的需要。目前我国有很多历史遗留下来的大量图书、报刊、杂志等纸质珍品,

急需将其转换成电子信息。如电子图书馆的建立,就需要将图书逐页扫描,加上OCR软件

的识别,更替代了人工键入文字的工作,大大缩短了录入时间,减轻了劳动强度,节省了

人力且降低了费用,提高了录入正确率、工作效率和现代办公自动化程度。

OCR技术的优势

1)创新著录标引方式

OCR技术提供了一种新的著录方式,使档案条目通过计算机录入成为可能。工作人员

可以直接从OCR后的全文中找到著录项(如题名、文号、责任者等),复制粘贴到目录数

据库的相应字段中去。②但这么做必须先扫描档案全文、OCR,然后再输条目,颠覆了档

案数字化工作的一般工作流程,因此可行性并不高。还有一种方法是先将档案卷内目录扫

描、OCR处理,再复制粘贴条目,或通过特定的程序自动采集条目信息③。但由于很多卷

内目录是手写的,OCR无法识别,只得依靠手工录入。相信随着未来技术的发展,OCR

在这方面的应用一定能够有所突破。

2.实现真正的全文检索

3.支持双层PDF技术

双层PDF技术既能较好地保证档案的原真性,在用户需要时又能对档案中的文字进行

选择、复制、搜索等处理,因此必将在今后的档案数字化工作中越来越得到青睐。而这一

技术的运用必须首先以OCR技术为支撑。

4.拓宽档案用户利用面

将纸质档案数字化,并采用OCR识别,能够使档案信息资源实现全文检索、网络传输,

方便用户异地检索、复制引用,从而深化用户对档案内容的查询与利用,拓宽其利用面,

使档案也能像图书、情报一样成为人们日常生活中获取信息、利用信息、增加学识的手段,

使档案多方面地服务于公众。

2024年5月5日发(作者:原爰)

1 OCR简介

OCR是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简

单地称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取

纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编

码,并按通用格式存储在文本文件中,从根本上改变了人们对计算机汉字人工编码录入的

概念。使人们从繁重的键盘录入汉字的劳动中解脱出来。只要用扫描仪将整页文本图像输

入到计算机,就能通过OCR软件自动产生汉字文本文件,这与人手工键入的汉字效果是一

样的,但速度比手工快几十倍。比如用手机给名片拍照,名片中的姓名、电话号码等信息

就会自动识别进入到手机中,从此查询、拨打轻而易举。目前支持该功能的手机主要有摩

托罗拉A1200、索爱P990和LG G832等。所以,OCR是一种非常快捷、省力的文字输

入方式,也是在文字量比较大的今天,很受人们欢迎的一种输入方式。

2 OCR的发展概况

20世纪70年代初,日本的学者开始研究汉字识别,并做了大量的工作。我国研究汉

字识别的起步比较晚,20世纪70年代末才开始进行OCR的研究工作。早期的OCR软件,

由于识别率及产品化等多方面的因素,未能达到实际要求。同时,由于硬件设备成本高,

运行速度慢,也没有达到实用的程度。只有个别部门,如信息部门、新闻出版单位等使用

OCR软件。1

986年以后我国的OCR研究有了很大进展,在汉字建模和识别方法上都有所创新,在

系统研制和开发应用中都取得了丰硕的成果,不少单位相继推出了中文OCR产品。

进入20世纪90年代以后,随着平台式扫描仪的广泛应用,以及我国信息自动化和办

公自动化的普及,大大推动了OCR技术的进一步发展,使OCR的识别正确率、识别速度

满足了广大用户的要求。

目前,比较流行的OCR软件很多,英文OCR主要有OmniPage,中文OCR主要有

清华紫光OCR、清华文通OCR、汉王OCR、中晶尚书OCR、丹青OCR、蒙恬OCR等。

尽管汉字字量大、字形复杂,但OCR技术已经走向成熟。许多OCR软件不仅能识别黑白

印刷体汉字,还能识别灰度和彩色印刷体汉字,识别速度很快,识别正确率达到了99%以

上;可识别宋体、黑体、楷体等多种字体的简、繁体;可对多种字体、不同字号的混排进

行识别;有些OCR软件还能识别图像、表格。与此同时,对于手写体汉字识别的研究也取

得了很大进展,正确识别率已达到了70%以上。

3 OCR系统的组成

汉字识别软件OCR的功能是将各种录入汉字、印刷体或手写体中每个汉字的图形或图

像通过计算机辨认出来,并标出汉字类别代码。因此,汉字识别归根结底是一个图像识别

问题。由于汉字信息量很大,具有不同的字形、字体,而且结构复杂,因此汉字识别的过

程极其复杂。由于扫描仪的普及与广泛应用,OCR软件只需提供与扫描仪的接口,利用扫

描仪驱动软件即可。因此,OCR软件主要是由图像处理模块、版面划分模块、文字识别模

块和文字编辑模块等4部分组成。

1)图像处理模块

图像处理模块主要具有文稿扫描、图像缩放、图像旋转等功能。通过扫描仪输入后,

文稿形成图像文件,图像处理模块可对图像进行放大,去除污点和划痕,如果图像放置不

正,可以手工或自动旋转图像,目的是为文字识别创造更好的条件,使识别率更高。

2)版面划分模块

版面划分模块主要包括版面划分、更改划分,即对版面的理解、字切分、归一化等,

可选择自动或手动两种版面划分方式。目的是告诉OCR软件将同一版面的文章、表格等分

开,以便于分别处理,并按照怎样的顺序进行识别。

3)文字识别模块

文字识别模块是OCR软件的核心部分,文字识别模块主要对输入的汉字进行"阅读",

但不能一目多行,必须逐行切割,对于汉字通常也是一个字一个字地辨认,即单字识别,

再进行归一化。文字识别模块通过对不同样本汉字的特征进行提取,完成识别,自动查找

可疑字,具有前后联想等功能。

4)文字编辑模块

文字编辑模块主要对OCR识别后的文字进行修改、编辑,如系统识别认为有误,则文

字会以醒目的红色或蓝色显示,并提供相似的文字供选择,选择编辑器供输出等。

4 OCR识别的一般步骤

(1)文稿扫描后,刚开始出现在视窗中的要识别的文字画面很小,首先选择"放大"工具,

对画面进行适当放大,以使画面看得更清楚。必要时还可以选择"缩小"工具,将画面适当

缩小。

(2)如果画面需要旋转90°,180°或270°,可使用"旋转图像"工具旋转图像。如果文字

画面倾斜,可选择"倾斜校正"工具,将画面调正。

(3)识别时选择"设定识别区域"工具,在文字画面上框出要识别的区域,这时也可根据

画面情况框出多个区域。如果所框区域有误,则可使用"删除识别区域"工具,删除所选识

别区域。

(4)为了提高识别率,如果所选识别区有杂点或有不能识别的图像,则可选择"擦除图

像杂点"工具,将杂点一点一点地擦除。如果需要成片地擦除,则可选择"擦拭图像块"工具。

(5)点击"识别"图标,则OCR显示正在进行文字切分,然后转入"正在识别"画面,将识

别的文字逐步显示出来,"文稿校对"窗口。

许多OCR软件都具有文字修改功能,被识别出可能有错误的文字,用比较鲜明的颜色

显示出来,并且可以进行修改。

(6)将识别后的文件存储成文本(TXT)文件或Word的RTF文件。

一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继

续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料

的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。

5 OCR技术的应用及其优势

目前OCR软件与扫描仪的搭配已应用到信息化时代的多个领域,如数字化图书馆,各

种报表的识别,以及银行、税务系统票据的识别等。随着网络化、信息化的发展与普及,

其应用范围将越来越广泛。

无论是让计算机对文字进行排版输出,还是要让计算机认识它看到文字,所有这一切

都是为我们生活服务。信息化和数字化的进程,让我们不再安于用十指敲击键盘来输入数

据。人们希望能将时间和精力投入到更具创造性的工作中去,因而希望计算机等辅助设备

能更具智慧。OCR技术就是其中的一项,跟打印技术相对,它是让计算机认字的一种技术,

这远比打印复杂得多。

经济竞争带来更多的商务活动,每个活动上名片都是必不可少的主角,名片的管理产

品也应运而生,名片识别管理工具同样也是以OCR技术为核心的产品。通过名片识别工具

将名片进行扫描、识别、分类,不仅能够导入手机、PDA等,而且还能为名片信息进行备

份,不用担心遗失。文通e-card就是一款优秀的名片识别管理产品,OCR技术能把商务

生活打理得有条不紊,节约更多的时间。现在,几乎所有的扫描仪和一体机上都配装OCR

软件,比如HP、UNISCAN、EPSON、CANON、 LENOVO等扫描仪厂商捆绑的就是文

通TH-OCR。

在扫描仪市场上,许多类型的办公和家用扫描仪均配有OCR软件,如紫光的扫描仪

配备了紫光OCR,中晶的扫描仪配备了尚书OCR,Mustek的扫描仪配备了丹青OCR等。

扫描仪与OCR软件共同承担着从文稿的输入到文字识别的全过程。 文稿扫描在办公领域

中经常用到,即将报纸、杂志等媒体上刊载的有关文稿通过扫描仪进行扫描,随后进行OCR

识别,或存储成图像文件,留待以后进行OCR识别,将图像文件转换成文本文件或Word

文件进行存储。

此外,数字化信息的存储、传输、不仅成本低、效率高,而且能够适应排版,网络传

输等不断发展的需要。目前我国有很多历史遗留下来的大量图书、报刊、杂志等纸质珍品,

急需将其转换成电子信息。如电子图书馆的建立,就需要将图书逐页扫描,加上OCR软件

的识别,更替代了人工键入文字的工作,大大缩短了录入时间,减轻了劳动强度,节省了

人力且降低了费用,提高了录入正确率、工作效率和现代办公自动化程度。

OCR技术的优势

1)创新著录标引方式

OCR技术提供了一种新的著录方式,使档案条目通过计算机录入成为可能。工作人员

可以直接从OCR后的全文中找到著录项(如题名、文号、责任者等),复制粘贴到目录数

据库的相应字段中去。②但这么做必须先扫描档案全文、OCR,然后再输条目,颠覆了档

案数字化工作的一般工作流程,因此可行性并不高。还有一种方法是先将档案卷内目录扫

描、OCR处理,再复制粘贴条目,或通过特定的程序自动采集条目信息③。但由于很多卷

内目录是手写的,OCR无法识别,只得依靠手工录入。相信随着未来技术的发展,OCR

在这方面的应用一定能够有所突破。

2.实现真正的全文检索

3.支持双层PDF技术

双层PDF技术既能较好地保证档案的原真性,在用户需要时又能对档案中的文字进行

选择、复制、搜索等处理,因此必将在今后的档案数字化工作中越来越得到青睐。而这一

技术的运用必须首先以OCR技术为支撑。

4.拓宽档案用户利用面

将纸质档案数字化,并采用OCR识别,能够使档案信息资源实现全文检索、网络传输,

方便用户异地检索、复制引用,从而深化用户对档案内容的查询与利用,拓宽其利用面,

使档案也能像图书、情报一样成为人们日常生活中获取信息、利用信息、增加学识的手段,

使档案多方面地服务于公众。

发布评论

评论列表 (0)

  1. 暂无评论