扫描仪的文字识别-USB迷|专注于互联网分享

2024年4月11日发(作者：房问筠)

扫描仪的文字识别

编辑整理---迟宝山

借助扫描仪将文字内容以图片形式扫描存人电脑后，然后可利用OCR文字

识别软件将图形中的文字直接识别为文字文档。一般扫描仪驱动盘中都附送了

文字识别软件，目前市场上较常见的文字识别软件有尚书、汉王、紫光、丹青等。

小提示：什么一叫OCR？OCR(Optical Character Recognition)的概念

产生是在1929年，由德国的科学家Tausheck首先提出。它可以将图形中的文

字转换为一个个的字元，并保留其格式，最后达成图像文档转成文字文档的目

的，免去重新打字输入的技术。我们接下来以“尚书七号”为例，介绍一下如

何对已扫描存人电脑中的图像文档进行文字识别。而其它文字识别软件

在使用上也基本相似，在使用时如有问题可多查看软件所带的帮助

说明。在作OCR识别时应以300dpi、黑白二值扫描，并适当调高亮度和

对比度。启动文字识别软件，单击尚书七号工具栏上的“打开”图标，

打开要进行识别的文档，此时便可在原图栏看到图像。

1、图象位置的校正

若扫描的图像文档方向有误，如没有水平，或者图像颠倒，我们可

以在常用

的文字识别软件中进行简单的修正。在菜单栏“编辑”便可在其下看到一些常用

得上的调节方式（如图2）如果图像是上、下颠倒，则可借助“旋转图像→左转

90度”（或者是“右转90度”）来分两次完成修正。如果在对图

像进行修正时出现错误操作，可利用“编辑”菜单下“恢复原图”来进行恢复。

如果扫描得到的图像出现轻微的倾斜，我们除利用“自动倾斜校正”来进行修

正外，还可选择“手动倾斜校正” 来进行。在进人手动倾斜校正后，

可将指针移到“手动倾斜校正”窗口图像上（不能在红色横坐标上），然后按住鼠

标左键，并移动鼠标，这样便可调整该窗口显示的内容在手动校正时除了可单击

右侧的 “顺时针”或“逆时针”两个按钮外，还可将指针移到红色横坐标中的小方

块上，按住鼠标左键上下移动鼠标，使得水平线条与

文本图像的倾斜角度一致（也可以用键盘上的上下箭头在按钮间切换），校正好

后单击“确认”按钮便可进行校正

（如图3,)

2．需识别的文字选取

在我们实际识别时并不需对整个图像文档进行识别，因此在识别前我们可以进

行范围选取，使图像中的图像、页码等不需要识别进来的内容排除在外，这

样能提高我们的正确识别率。

小提示：若当前图像文档有比较规则的、不需识别的内容，可在工具栏上选

择“恢复鼠标”按粗，然后再将光标箭头移动到当前图像边框处，此时箭头变为

卡住围像边框的双箭头。按下鼠标左键，将该位置的图像边框向内一移动，使

边框只选择当前图像需识别的部分。

在尚书七号中，可在工具栏单击“版面分析，，图标（或者直

接在键盘上敲"F5"快捷键），此时软件会自动对文档进行版面分析，并会自动根据

文档来划分方块，每个方块上都有一个数字，此数字表示识别时的排队等待编号，

有些类似于去银行办理业务时领取的号码。若框切分不对，可单击需取消的框，

操作方法为单击“识别”菜单中的“取消当前栏”命令，取消当前栏重新画框；

若整页切分错误较多，可单击工具栏中的“取消版面分析结果”按钮，取消图像

页的全部版面分析。一般我们可以采用手动选取的方法：直接在图像上按下鼠标

左键，拖动鼠标产生方框，使方框正好框住需识别的文字内容后，再松开鼠标

左键，这样便可产生第一个识别区。按照这种方法便可将图像上其它需识别的内

容范围逐个进行选取（如图4）。如果选择范围时次序有错（这样会使识别得到的

文字结果次序产生错误），我们可进行调整。把指针移到需移前的方框上，按下

鼠标左键，拖动鼠标此时会出现一个箭头图标，使它指向另一个需交换次序的方

框上，然后松开鼠标左键，便可使两个方框的序号进行互换（如图5）。

小提示：要使两个方框的序号进行交换，除按上面的操作外，还得注意是从

大号方框上按下鼠标左健，使箭头„指向一个比此方框号要小的方框上时，才会

进行序号交换。

3.文字的识别及修改

完成范围选择之后，单击工具栏上的“开始识别”图标便可进行

快速识别。完成识别后，结果会出现在“文字识别显示栏托，在移动光标时会

显示相应的图形内容，我们可以根据删除、输人或修改操作，注意最上面会显示

可备选的文字或符号，我们可以对菜单进行设置（如图6）其中在识别结果中红色

文字多为出错内容。

小提示：在操作时注意识别软件窗口右下端的状态，为“插入”时不会影响

后面的文字，为“改写“时会对光标所在位置后的文字或字符产生影响·完成修

改后，．我们可以利用复制、粘贴的方法把此文字内容粘贴到其它文本编辑器中

进行编辑和使用。还可利用软件的输出功能进行输出保存，如在尚书七号中可在

菜单栏单击“输出→到指定文件格式”，然后设置好文件保存目录及文件名，

最后单击“保存”按钮进行保存。扫描仪的“身影”如今己是随处可见，然而一般用户只是用它

来扫描一些照片，以便放到网上进行展示；殊不知扫描仪在录入文字材料方面也是一把“好

手”，通过扫描仪来快速扫描、识别文字，已经成为许多单位用户和个人用户每天必修的“功

课”之一。

不过在用扫描仪识别、录入文字材料的过程中，不少人往往只会用扫描仪缺省的设置参数

来扫描识别文字，遗憾的是这种识别方法常常无法准确地将材料中的文字识别出来。为了有

效提高办公效率，学会一些文字识别的操作技巧，从而提高文字材料的录入速度是非常有必

要的。现在，笔者就将自己在扫描识别文字过程中总结出来的一些经验贡献出来，与各位朋

友分享一下!

从识别软件挖掘

也许有人说，识别软件不是内置在扫描仪驱动程序中，这有什么好挖掘的?其实不然，

不同的OCR扫描识别软件在文字识别的能力以及功能方面是不完全相同的，而挑选一款操

作方便、识别能力较强的识别软件是提高文字识别准确率的前提。一般用户通常都会使用扫

描仪内置的OEM识别软件，不过这种识别软件相比其他专业的识别软件来说，识别功能不

强，文字识别的准确率也不是很高，甚至还无法对中文字体进行识别;而类似尚书OCR6.0、

清华紫光OCR2003等专业的文字识别软件，不但在文本自动识别方面有较强的能力，而且

在使用功能方面也比较突出一些，选择这些专业的识别软件可以很轻松地提高文字的识别准

确率。当然，要是目标文稿中包含的文字具有复杂的格式，比方说段落中出现了首行缩进格

2024年4月11日发(作者：房问筠)

扫描仪的文字识别

编辑整理---迟宝山

借助扫描仪将文字内容以图片形式扫描存人电脑后，然后可利用OCR文字

识别软件将图形中的文字直接识别为文字文档。一般扫描仪驱动盘中都附送了

文字识别软件，目前市场上较常见的文字识别软件有尚书、汉王、紫光、丹青等。

小提示：什么一叫OCR？OCR(Optical Character Recognition)的概念

产生是在1929年，由德国的科学家Tausheck首先提出。它可以将图形中的文

字转换为一个个的字元，并保留其格式，最后达成图像文档转成文字文档的目

的，免去重新打字输入的技术。我们接下来以“尚书七号”为例，介绍一下如

何对已扫描存人电脑中的图像文档进行文字识别。而其它文字识别软件

在使用上也基本相似，在使用时如有问题可多查看软件所带的帮助

说明。在作OCR识别时应以300dpi、黑白二值扫描，并适当调高亮度和

对比度。启动文字识别软件，单击尚书七号工具栏上的“打开”图标，

打开要进行识别的文档，此时便可在原图栏看到图像。

1、图象位置的校正

若扫描的图像文档方向有误，如没有水平，或者图像颠倒，我们可

以在常用

的文字识别软件中进行简单的修正。在菜单栏“编辑”便可在其下看到一些常用

得上的调节方式（如图2）如果图像是上、下颠倒，则可借助“旋转图像→左转

90度”（或者是“右转90度”）来分两次完成修正。如果在对图

像进行修正时出现错误操作，可利用“编辑”菜单下“恢复原图”来进行恢复。

如果扫描得到的图像出现轻微的倾斜，我们除利用“自动倾斜校正”来进行修

正外，还可选择“手动倾斜校正” 来进行。在进人手动倾斜校正后，

可将指针移到“手动倾斜校正”窗口图像上（不能在红色横坐标上），然后按住鼠

标左键，并移动鼠标，这样便可调整该窗口显示的内容在手动校正时除了可单击

右侧的 “顺时针”或“逆时针”两个按钮外，还可将指针移到红色横坐标中的小方

块上，按住鼠标左键上下移动鼠标，使得水平线条与

文本图像的倾斜角度一致（也可以用键盘上的上下箭头在按钮间切换），校正好

后单击“确认”按钮便可进行校正

（如图3,)

2．需识别的文字选取

在我们实际识别时并不需对整个图像文档进行识别，因此在识别前我们可以进

行范围选取，使图像中的图像、页码等不需要识别进来的内容排除在外，这

样能提高我们的正确识别率。

小提示：若当前图像文档有比较规则的、不需识别的内容，可在工具栏上选

择“恢复鼠标”按粗，然后再将光标箭头移动到当前图像边框处，此时箭头变为

卡住围像边框的双箭头。按下鼠标左键，将该位置的图像边框向内一移动，使

边框只选择当前图像需识别的部分。

在尚书七号中，可在工具栏单击“版面分析，，图标（或者直

接在键盘上敲"F5"快捷键），此时软件会自动对文档进行版面分析，并会自动根据

文档来划分方块，每个方块上都有一个数字，此数字表示识别时的排队等待编号，

有些类似于去银行办理业务时领取的号码。若框切分不对，可单击需取消的框，

操作方法为单击“识别”菜单中的“取消当前栏”命令，取消当前栏重新画框；

若整页切分错误较多，可单击工具栏中的“取消版面分析结果”按钮，取消图像

页的全部版面分析。一般我们可以采用手动选取的方法：直接在图像上按下鼠标

左键，拖动鼠标产生方框，使方框正好框住需识别的文字内容后，再松开鼠标

左键，这样便可产生第一个识别区。按照这种方法便可将图像上其它需识别的内

容范围逐个进行选取（如图4）。如果选择范围时次序有错（这样会使识别得到的

文字结果次序产生错误），我们可进行调整。把指针移到需移前的方框上，按下

鼠标左键，拖动鼠标此时会出现一个箭头图标，使它指向另一个需交换次序的方

框上，然后松开鼠标左键，便可使两个方框的序号进行互换（如图5）。

小提示：要使两个方框的序号进行交换，除按上面的操作外，还得注意是从

大号方框上按下鼠标左健，使箭头„指向一个比此方框号要小的方框上时，才会

进行序号交换。

3.文字的识别及修改

完成范围选择之后，单击工具栏上的“开始识别”图标便可进行

快速识别。完成识别后，结果会出现在“文字识别显示栏托，在移动光标时会

显示相应的图形内容，我们可以根据删除、输人或修改操作，注意最上面会显示

可备选的文字或符号，我们可以对菜单进行设置（如图6）其中在识别结果中红色

文字多为出错内容。

小提示：在操作时注意识别软件窗口右下端的状态，为“插入”时不会影响

后面的文字，为“改写“时会对光标所在位置后的文字或字符产生影响·完成修

改后，．我们可以利用复制、粘贴的方法把此文字内容粘贴到其它文本编辑器中

进行编辑和使用。还可利用软件的输出功能进行输出保存，如在尚书七号中可在

菜单栏单击“输出→到指定文件格式”，然后设置好文件保存目录及文件名，

最后单击“保存”按钮进行保存。扫描仪的“身影”如今己是随处可见，然而一般用户只是用它

来扫描一些照片，以便放到网上进行展示；殊不知扫描仪在录入文字材料方面也是一把“好

手”，通过扫描仪来快速扫描、识别文字，已经成为许多单位用户和个人用户每天必修的“功

课”之一。

不过在用扫描仪识别、录入文字材料的过程中，不少人往往只会用扫描仪缺省的设置参数

来扫描识别文字，遗憾的是这种识别方法常常无法准确地将材料中的文字识别出来。为了有

效提高办公效率，学会一些文字识别的操作技巧，从而提高文字材料的录入速度是非常有必

要的。现在，笔者就将自己在扫描识别文字过程中总结出来的一些经验贡献出来，与各位朋

友分享一下!

从识别软件挖掘

也许有人说，识别软件不是内置在扫描仪驱动程序中，这有什么好挖掘的?其实不然，

不同的OCR扫描识别软件在文字识别的能力以及功能方面是不完全相同的，而挑选一款操

作方便、识别能力较强的识别软件是提高文字识别准确率的前提。一般用户通常都会使用扫

描仪内置的OEM识别软件，不过这种识别软件相比其他专业的识别软件来说，识别功能不

强，文字识别的准确率也不是很高，甚至还无法对中文字体进行识别;而类似尚书OCR6.0、

清华紫光OCR2003等专业的文字识别软件，不但在文本自动识别方面有较强的能力，而且

在使用功能方面也比较突出一些，选择这些专业的识别软件可以很轻松地提高文字的识别准

确率。当然，要是目标文稿中包含的文字具有复杂的格式，比方说段落中出现了首行缩进格

USB迷 | 专注于互联网分享

扫描仪的文字识别

与本文相关的文章

评论列表 (0)