我有一个CSV文件,其中包含1900多个GIF图片链接。
每个图像都包含一个电子邮件地址。
我想以编程方式读取每个条目,并将它们转换为相应的文本,最好是在另一个或相同的CSV文件中。我使用Mac OS,更喜欢使用Python或Java来完成此任务。
关于如何使用OCR或通过任何其他方法进行操作的任何想法?示例代码将不胜感激。
我已经尝试过tesseract作为样本输入,但是结果不准确。这是我尝试过的:
$ tesseract email.gif out
email.gif看起来像:
[email protected]
在out.txt中生成的输出是:
gveen|L7uvs2fl1fl@yahLm cum
CSV文件如下所示(前2个条目):
这是我的第一个问题。抱歉,如果我错过任何其他相关信息。我很乐意提供更多。
更新的答案
您的图像非常小,并且容易变形。
您可能会更好地将它们放大并使用ImageMagick对其进行锐化,如下所示:
convert email.gif -resize 600x -unsharp 0x8 -threshold 95% x.png # Enlarge and sharpen
tesseract x.png text # OCR
结果
[email protected]
如果您的CSV文件看起来像您的示例,并且名为file.csv
http://d1hnc0v5nyu4l2.cloudfront.net/kh/communications/original/1417577580/C2AFA720-7A9C-11E4-9201-22000AA51306?1417577580 http://d306v9rz034cgu.cloudfront.net / kh / communications / original / 1367212416 / 55BE4627-B463-4523-8332-4046835D3D79?1367212416
你可能会写
#!/bin/bash
while read f; do
convert "$f" -resize 600x -unsharp 0x8 -threshold 95% image.png
tesseract image.png text
grep "[a-z0-9]" text.txt >> results.txt
done < file.csv
您的文件results.txt
将具有
[email protected]
cambodia][email protected]
如果确实打算使用OSXImageMagick
或tesseract
在OSX上使用,请考虑使用进行安装homebrew
。这将使您的生活更轻松。询问是否不知道。
原始答案
好吧,这可能是一个开始使用tesseract
。基本上,您将输入图像文件的名称(email.png
在我的示例中)和输出文本文件的基础传递给它,如下所示:
tesseract email.png text -psm 7
然后你会得到一些文本文件text.txt
是这样
lmAV@chwL7v\d1vave\z:um
您可以尝试使用各种不同的参数和策略来清理输入文件,可能使用ImageMagick。
由于您没有说出使用的操作系统或CSV文件的样子,因此目前很难提供任何帮助。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句