从扫描的文档中提取文本

达南再也

有什么方法可以从扫描的文档中选择文本?(输出是jpg)Ubuntu提供了什么样的工具来执行此任务?是否可以使用任何库代替预构建的软件二进制文件来完成相同的工作?我尝试使用Imagemagick将其转换为.pdf,然后尝试选择文本,这显然行不通。

林兹风

这种过程的名称为OCR(光学字符识别)。该链接还提供了两种选择:


gocr-命令行OCR Fuzzyocr-检查图像附件的spamassassin插件
libhocr0-希伯来语OCR 
ocrad-光学字符识别程序
ocrfeeder-文档布局分析和光学字符识别系统
ocropus-文档分析和OCR系统
tesseract-ocr
楔形文字-多语言OCR系统

这表明Tesseract(非常古老的教程)是其中的更好选择。所以试试吧。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

从扫描的文档中提取文本

来自分类Dev

从图像或扫描的文档中提取表格数据(非pdf)

来自分类Dev

从扫描的PDF中提取文本而不将扫描另存为新文件图像

来自分类Dev

从文本文档中提取技术关键字

来自分类Dev

从文本文档中提取关键短语的规则

来自分类Dev

使用Google Apps脚本从Google文档中提取文本

来自分类Dev

如何使用VBA从Word文档中的形状中提取文本?

来自分类Dev

使用Python ElementTree从xml文档中提取文本

来自分类Dev

如何从txt文档中提取文本并创建新目录?

来自分类Dev

使用XSLT从XML文档中提取文本内容

来自分类Dev

需要从HTML文档中提取文本消息

来自分类Dev

如何从Linux中的MS Office文档中提取文本?

来自分类Dev

使用记事本++从文档中提取特定文本

来自分类Dev

如何从字节数组中提取 Word 文档文本?

来自分类Dev

从标签中提取文本

来自分类Dev

从文本中提取关系

来自分类Dev

从文本中提取数据

来自分类Dev

从行中提取文本

来自分类Dev

从列中提取文本

来自分类Dev

从文本中提取图案

来自分类Dev

从文本中提取数字

来自分类Dev

在Excel中提取文本

来自分类Dev

从文本中提取数据

来自分类Dev

从文本中提取日期

来自分类Dev

使用python从PDF中提取扫描页面

来自分类Dev

如何使用Web :: Query从HTML文档中提取一些文本

来自分类Dev

使用C#识别从pdf文档中提取的文本的段落和/或页面边界

来自分类Dev

从Jupyter Notebook中的ipyWidgets通过FileUpload上传的MS Word文档中提取文本

来自分类Dev

在Swift中使用Firebase,如何从集合中提取文档以使其在文本视图中显示?