达南再也
有什么方法可以从扫描的文档中选择文本?(输出是jpg)Ubuntu提供了什么样的工具来执行此任务?是否可以使用任何库代替预构建的软件二进制文件来完成相同的工作?我尝试使用Imagemagick将其转换为.pdf,然后尝试选择文本,这显然行不通。
林兹风
这种过程的名称为OCR(光学字符识别)。该链接还提供了两种选择:
gocr-命令行OCR Fuzzyocr-检查图像附件的spamassassin插件
libhocr0-希伯来语OCR
ocrad-光学字符识别程序
ocrfeeder-文档布局分析和光学字符识别系统
ocropus-文档分析和OCR系统
tesseract-ocr
楔形文字-多语言OCR系统
这表明Tesseract(非常古老的教程)是其中的更好选择。所以试试吧。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
编辑于
我来说两句