最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

扫描仪的文字识别

IT圈 admin 52浏览 0评论

2024年4月11日发(作者:房问筠)

扫描仪的文字识别

编辑整理---迟宝山

借助扫描仪将文字内容以图片形式扫描存人电脑后,然后可利 用OCR文字

识别软件将图形中的文字直接识别为文字文档。一般扫描 仪驱动盘中都附送了

文字识别软件,目前市场上较常见的文字识别软件 有尚书、汉王、紫光、丹青等。

小提示:什么一叫OCR?OCR(Optical Character Recognition)的概念

产生是在1929年,由德国的科学家Tausheck首先提出。它可以将图形中的文

字转换为一个个的字元,并保留其格式,最后达成图像文档转成文字文档的目

的,免去重新打字输入的技术。我们接下来以“尚书七号”为例,介绍一下如

何对已扫描存人电脑中的图像文档进行文字识别。而其它文字识别软件

在使用上也基本相似,在使用时如有问题可多查看软件所带的帮助

说明。在作OCR识别时应以300dpi、黑白二值扫描,并适当调高亮度和

对比度。启动文字识别软件,单击尚书七号工具栏上的“打开”图标,

打开要进行识别的文档,此时便可在原图栏看到图像。

1、图象位置的校正

若扫描的图像文档方向有误,如没有水平,或者图像颠倒,我们可

以在常用

的文字识别软件中进行简单的修正。在菜单栏“编辑”便可在其下看到一些常用

得上的调节方式(如图2)如果图像是上、下颠倒,则可借助“旋转图像→左转

90度”(或者是“右 转90度”)来分两次完成修正。如果在对图

像进行修正时出现错误操作,可利用“编辑”菜单下“恢复原图”来进行恢复。

如果扫描得到的图像出现轻微的倾斜,我们除利用“自动倾斜校正”来进行修

正外,还可选择“手动倾斜校正” 来进行。在进人手动倾斜校正后,

可将指针移到“手动倾斜校正”窗口图像上(不能在红色横坐标上),然后按住鼠

标左键,并移动鼠标,这样便可调整该窗口显示的内容在手动校正时除了可单击

右侧的 “顺时针”或“逆时针”两个按钮外,还可将指针移到红色横坐标中的小方

块上,按住鼠标左键上下移动鼠标,使得水平线条与

文本图像的倾斜角度一致(也可以用键盘上的上下箭头在按钮间切换),校正好

后单击“确认”按钮便可进行校正

(如图3,)

2.需识别的文字选取

在我们实际识别时并不需对整个图像文档进行识别,因此在识别前我们可以进

行范围选取,使图像中的图像、页码等不需要识别进来的内容排除在外,这

样能提高我们的正确识别率。

小提示:若当前图像文档有比较规则的、不需识别的内容,可在工具栏上选

择“恢复鼠标”按粗,然后再将光标箭头移动到当前图像边框处,此时箭头变为

卡住围像边框的双箭头。按下鼠标左键,将该位置的图像边框向内一移动,使

边框只选择当前图像需识别的部分。

在尚书七号中,可在工具栏单击“版面分析,,图标(或者直

接在键盘上敲"F5"快捷键),此时软件会自动对文档进行版面分析,并会自动根据

文档来划分方块,每个方块上都有一个数字,此数字表示识别时的排队等待编号,

有些类似于去银行办理业务时领取的号码。若框切分不对,可单击需取消的框,

操作方法为单击“识别”菜单中的“取消当前栏”命令,取消当前栏重新画框;

若整页切分错误较多,可单击工具栏中的“取消版面分析结果”按钮,取消图像

页的全部版面分析。一般我们可以采用手动选取的方法:直接在图像上按下鼠标

左键,拖动鼠标产生方框,使方框正好框住需识别的文字内容后,再松开鼠标

左键,这样便可产生第一个识别区。按照这种方法便可将图像上其它需识别的内

容范围逐个进行选取(如图4)。如果选择范围时次序有错(这样会使识别得到的

文字结果次序产生错误),我们可进行调整。把指针移到需移前的方框上,按下

鼠标左键,拖动鼠标此时会出现一个箭头图标,使它指向另一个需交换次序的方

框上,然后松开鼠标左键,便可使两个方框的序号进行互换(如图5)。

小提示:要使两个方框的序号进行交换,除按上面的操作外,还得注意是从

大号方框上按下鼠标左健,使箭头„指向一个比此方框号要小的方框上时,才会

进行序号交换。

3.文字的识别及修改

完成范围选择之后,单击工具栏上的“开始识别”图标便可进行

快速识别。完成识别后,结果会出现在“文字识别显示栏托,在移动光标时会

显示相应的图形内容,我们可以根据删除、输人或修改操作,注意最上面会显示

可备选的文字或符号,我们可以对菜单进行设置(如图6)其中在识别结果中红色

文字多为出错内容。

小提示:在操作时注意识别软件窗口右下端的状态,为“插入”时不会影响

后面的文字,为“改写“时会对光标所在位置后的文字或字符产生影响·完成修

改后,.我们可以利用复制、粘贴的方法把此文字内容粘贴到其它文本编辑器中

进行编辑和使用。还可利用软件的输出功能进行输出保存,如在尚书七号中可在

菜单栏单击“输出→到指定文件格式”,然后设置好文件保存目录及文件名,

最后单击“保存”按钮进行保存。扫描仪的“身影”如今己是随处可见,然而一般用户只是用它

来扫描一些照片,以便放到网上进行展示;殊不知扫描仪在录入文字材料方面也是一把“好

手”,通过扫描仪来快速扫描、识别文字,已经成为许多单位用户和个人用户每天必修的“功

课”之一。

不过在用扫描仪识别、录入文字材料的过程中,不少人往往只会用扫描仪缺省的设置参数

来扫描识别文字,遗憾的是这种识别方法常常无法准确地将材料中的文字识别出来。为了有

效提高办公效率,学会一些文字识别的操作技巧,从而提高文字材料的录入速度是非常有必

要的。现在,笔者就将自己在扫描识别文字过程中总结出来的一些经验贡献出来,与各位朋

友分享一下!

从识别软件挖掘

也许有人说,识别软件不是内置在扫描仪驱动程序中,这有什么好挖掘的?其实不然,

不同的OCR扫描识别软件在文字识别的能力以及功能方面是不完全相同的,而挑选一款操

作方便、识别能力较强的识别软件是提高文字识别准确率的前提。一般用户通常都会使用扫

描仪内置的OEM识别软件,不过这种识别软件相比其他专业的识别软件来说,识别功能不

强,文字识别的准确率也不是很高,甚至还无法对中文字体进行识别;而类似尚书OCR6.0、

清华紫光OCR2003等专业的文字识别软件,不但在文本自动识别方面有较强的能力,而且

在使用功能方面也比较突出一些,选择这些专业的识别软件可以很轻松地提高文字的识别准

确率。当然,要是目标文稿中包含的文字具有复杂的格式,比方说段落中出现了首行缩进格

2024年4月11日发(作者:房问筠)

扫描仪的文字识别

编辑整理---迟宝山

借助扫描仪将文字内容以图片形式扫描存人电脑后,然后可利 用OCR文字

识别软件将图形中的文字直接识别为文字文档。一般扫描 仪驱动盘中都附送了

文字识别软件,目前市场上较常见的文字识别软件 有尚书、汉王、紫光、丹青等。

小提示:什么一叫OCR?OCR(Optical Character Recognition)的概念

产生是在1929年,由德国的科学家Tausheck首先提出。它可以将图形中的文

字转换为一个个的字元,并保留其格式,最后达成图像文档转成文字文档的目

的,免去重新打字输入的技术。我们接下来以“尚书七号”为例,介绍一下如

何对已扫描存人电脑中的图像文档进行文字识别。而其它文字识别软件

在使用上也基本相似,在使用时如有问题可多查看软件所带的帮助

说明。在作OCR识别时应以300dpi、黑白二值扫描,并适当调高亮度和

对比度。启动文字识别软件,单击尚书七号工具栏上的“打开”图标,

打开要进行识别的文档,此时便可在原图栏看到图像。

1、图象位置的校正

若扫描的图像文档方向有误,如没有水平,或者图像颠倒,我们可

以在常用

的文字识别软件中进行简单的修正。在菜单栏“编辑”便可在其下看到一些常用

得上的调节方式(如图2)如果图像是上、下颠倒,则可借助“旋转图像→左转

90度”(或者是“右 转90度”)来分两次完成修正。如果在对图

像进行修正时出现错误操作,可利用“编辑”菜单下“恢复原图”来进行恢复。

如果扫描得到的图像出现轻微的倾斜,我们除利用“自动倾斜校正”来进行修

正外,还可选择“手动倾斜校正” 来进行。在进人手动倾斜校正后,

可将指针移到“手动倾斜校正”窗口图像上(不能在红色横坐标上),然后按住鼠

标左键,并移动鼠标,这样便可调整该窗口显示的内容在手动校正时除了可单击

右侧的 “顺时针”或“逆时针”两个按钮外,还可将指针移到红色横坐标中的小方

块上,按住鼠标左键上下移动鼠标,使得水平线条与

文本图像的倾斜角度一致(也可以用键盘上的上下箭头在按钮间切换),校正好

后单击“确认”按钮便可进行校正

(如图3,)

2.需识别的文字选取

在我们实际识别时并不需对整个图像文档进行识别,因此在识别前我们可以进

行范围选取,使图像中的图像、页码等不需要识别进来的内容排除在外,这

样能提高我们的正确识别率。

小提示:若当前图像文档有比较规则的、不需识别的内容,可在工具栏上选

择“恢复鼠标”按粗,然后再将光标箭头移动到当前图像边框处,此时箭头变为

卡住围像边框的双箭头。按下鼠标左键,将该位置的图像边框向内一移动,使

边框只选择当前图像需识别的部分。

在尚书七号中,可在工具栏单击“版面分析,,图标(或者直

接在键盘上敲"F5"快捷键),此时软件会自动对文档进行版面分析,并会自动根据

文档来划分方块,每个方块上都有一个数字,此数字表示识别时的排队等待编号,

有些类似于去银行办理业务时领取的号码。若框切分不对,可单击需取消的框,

操作方法为单击“识别”菜单中的“取消当前栏”命令,取消当前栏重新画框;

若整页切分错误较多,可单击工具栏中的“取消版面分析结果”按钮,取消图像

页的全部版面分析。一般我们可以采用手动选取的方法:直接在图像上按下鼠标

左键,拖动鼠标产生方框,使方框正好框住需识别的文字内容后,再松开鼠标

左键,这样便可产生第一个识别区。按照这种方法便可将图像上其它需识别的内

容范围逐个进行选取(如图4)。如果选择范围时次序有错(这样会使识别得到的

文字结果次序产生错误),我们可进行调整。把指针移到需移前的方框上,按下

鼠标左键,拖动鼠标此时会出现一个箭头图标,使它指向另一个需交换次序的方

框上,然后松开鼠标左键,便可使两个方框的序号进行互换(如图5)。

小提示:要使两个方框的序号进行交换,除按上面的操作外,还得注意是从

大号方框上按下鼠标左健,使箭头„指向一个比此方框号要小的方框上时,才会

进行序号交换。

3.文字的识别及修改

完成范围选择之后,单击工具栏上的“开始识别”图标便可进行

快速识别。完成识别后,结果会出现在“文字识别显示栏托,在移动光标时会

显示相应的图形内容,我们可以根据删除、输人或修改操作,注意最上面会显示

可备选的文字或符号,我们可以对菜单进行设置(如图6)其中在识别结果中红色

文字多为出错内容。

小提示:在操作时注意识别软件窗口右下端的状态,为“插入”时不会影响

后面的文字,为“改写“时会对光标所在位置后的文字或字符产生影响·完成修

改后,.我们可以利用复制、粘贴的方法把此文字内容粘贴到其它文本编辑器中

进行编辑和使用。还可利用软件的输出功能进行输出保存,如在尚书七号中可在

菜单栏单击“输出→到指定文件格式”,然后设置好文件保存目录及文件名,

最后单击“保存”按钮进行保存。扫描仪的“身影”如今己是随处可见,然而一般用户只是用它

来扫描一些照片,以便放到网上进行展示;殊不知扫描仪在录入文字材料方面也是一把“好

手”,通过扫描仪来快速扫描、识别文字,已经成为许多单位用户和个人用户每天必修的“功

课”之一。

不过在用扫描仪识别、录入文字材料的过程中,不少人往往只会用扫描仪缺省的设置参数

来扫描识别文字,遗憾的是这种识别方法常常无法准确地将材料中的文字识别出来。为了有

效提高办公效率,学会一些文字识别的操作技巧,从而提高文字材料的录入速度是非常有必

要的。现在,笔者就将自己在扫描识别文字过程中总结出来的一些经验贡献出来,与各位朋

友分享一下!

从识别软件挖掘

也许有人说,识别软件不是内置在扫描仪驱动程序中,这有什么好挖掘的?其实不然,

不同的OCR扫描识别软件在文字识别的能力以及功能方面是不完全相同的,而挑选一款操

作方便、识别能力较强的识别软件是提高文字识别准确率的前提。一般用户通常都会使用扫

描仪内置的OEM识别软件,不过这种识别软件相比其他专业的识别软件来说,识别功能不

强,文字识别的准确率也不是很高,甚至还无法对中文字体进行识别;而类似尚书OCR6.0、

清华紫光OCR2003等专业的文字识别软件,不但在文本自动识别方面有较强的能力,而且

在使用功能方面也比较突出一些,选择这些专业的识别软件可以很轻松地提高文字的识别准

确率。当然,要是目标文稿中包含的文字具有复杂的格式,比方说段落中出现了首行缩进格

发布评论

评论列表 (0)

  1. 暂无评论