如何以编程方式阅读图像中的电子邮件并将其转换为文本？

xpm 发表于 Dev

xpm

我有一个CSV文件，其中包含1900多个GIF图片链接。

每个图像都包含一个电子邮件地址。

我想以编程方式读取每个条目，并将它们转换为相应的文本，最好是在另一个或相同的CSV文件中。我使用Mac OS，更喜欢使用Python或Java来完成此任务。

关于如何使用OCR或通过任何其他方法进行操作的任何想法？示例代码将不胜感激。

我已经尝试过tesseract作为样本输入，但是结果不准确。这是我尝试过的：

 $ tesseract email.gif out

email.gif看起来像：

[email protected]

在out.txt中生成的输出是：

gveen|L7uvs2ﬂ1ﬂ@yahLm cum

CSV文件如下所示（前2个条目）：

http://d1hnc0v5nyu4l2.cloudfront.net/kh/communications/original/1417577580/C2AFA720-7A9C-11E4-9201-22000AA51306?1417577580

http://d306v9rz034cgu.cloudfront.net/kh/communications/original/1367212416/55BE4627-B463-4523-8332-4046835D3D79?1367212416

这是我的第一个问题。抱歉，如果我错过任何其他相关信息。我很乐意提供更多。

马克·谢切尔

更新的答案

您的图像非常小，并且容易变形。

在此处输入图片说明

您可能会更好地将它们放大并使用ImageMagick对其进行锐化，如下所示：

convert email.gif -resize 600x -unsharp 0x8 -threshold 95% x.png     # Enlarge and sharpen
tesseract x.png text                                                 # OCR

在此处输入图片说明

结果

[email protected]

如果您的CSV文件看起来像您的示例，并且名为file.csv http://d1hnc0v5nyu4l2.cloudfront.net/kh/communications/original/1417577580/C2AFA720-7A9C-11E4-9201-22000AA51306?1417577580 http://d306v9rz034cgu.cloudfront.net / kh / communications / original / 1367212416 / 55BE4627-B463-4523-8332-4046835D3D79？1367212416

你可能会写

#!/bin/bash
while read f; do
   convert "$f" -resize 600x -unsharp 0x8 -threshold 95% image.png
   tesseract image.png text
   grep "[a-z0-9]" text.txt >> results.txt
done < file.csv

您的文件results.txt将具有

[email protected]
cambodia][email protected]

如果确实打算使用OSXImageMagick或tesseract在OSX上使用，请考虑使用进行安装homebrew。这将使您的生活更轻松。询问是否不知道。

原始答案

好吧，这可能是一个开始使用tesseract。基本上，您将输入图像文件的名称（email.png在我的示例中）和输出文本文件的基础传递给它，如下所示：

tesseract email.png text -psm 7

然后你会得到一些文本文件text.txt是这样

lmAV@chwL7v\d1vave\z:um

您可以尝试使用各种不同的参数和策略来清理输入文件，可能使用ImageMagick。

由于您没有说出使用的操作系统或CSV文件的样子，因此目前很难提供任何帮助。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-21

我来说两句

0条评论

登录后参与评论

来自分类Dev