如何以编程方式阅读图像中的电子邮件并将其转换为文本?

xpm

我有一个CSV文件,其中包含1900多个GIF图片链接。

每个图像都包含一个电子邮件地址。

我想以编程方式读取每个条目,并将它们转换为相应的文本,最好是在另一个或相同的CSV文件中。我使用Mac OS,更喜欢使用Python或Java来完成此任务。

关于如何使用OCR或通过任何其他方法进行操作的任何想法?示例代码将不胜感激。

我已经尝试过tesseract作为样本输入,但是结果不准确。这是我尝试过的:

 $ tesseract email.gif out

email.gif看起来像:

[email protected]

out.txt中生成的输出是:

gveen|L7uvs2fl1fl@yahLm cum

CSV文件如下所示(前2个条目):

这是我的第一个问题。抱歉,如果我错过任何其他相关信息。我很乐意提供更多。

马克·谢切尔

更新的答案

您的图像非常小,并且容易变形。

在此处输入图片说明

您可能会更好地将它们放大并使用ImageMagick对其进行锐化,如下所示:

convert email.gif -resize 600x -unsharp 0x8 -threshold 95% x.png     # Enlarge and sharpen
tesseract x.png text                                                 # OCR

在此处输入图片说明

结果

[email protected]

如果您的CSV文件看起来像您的示例,并且名为file.csv http://d1hnc0v5nyu4l2.cloudfront.net/kh/communications/original/1417577580/C2AFA720-7A9C-11E4-9201-22000AA51306?1417577580 http://d306v9rz034cgu.cloudfront.net / kh / communications / original / 1367212416 / 55BE4627-B463-4523-8332-4046835D3D79?1367212416

你可能会写

#!/bin/bash
while read f; do
   convert "$f" -resize 600x -unsharp 0x8 -threshold 95% image.png
   tesseract image.png text
   grep "[a-z0-9]" text.txt >> results.txt
done < file.csv

您的文件results.txt将具有

[email protected]
cambodia][email protected]

如果确实打算使用OSXImageMagicktesseract在OSX上使用,请考虑使用进行安装homebrew这将使您的生活更轻松。询问是否不知道。

原始答案

好吧,这可能是一个开始使用tesseract基本上,您将输入图像文件的名称(email.png在我的示例中)和输出文本文件的基础传递给它,如下所示:

tesseract email.png text -psm 7

然后你会得到一些文本文件text.txt是这样

lmAV@chwL7v\d1vave\z:um

您可以尝试使用各种不同的参数和策略来清理输入文件,可能使用ImageMagick。

由于您没有说出使用的操作系统或CSV文件的样子,因此目前很难提供任何帮助。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何以编程方式阅读图像中的电子邮件并将其转换为文本?

来自分类Dev

在 Thunderbird 中,在撰写电子邮件时,如何将其从纯文本转换为 HTML?

来自分类Dev

如何以编程方式触发Django 1.7.6中的密码重置电子邮件?

来自分类Dev

如何以编程方式检查电报中是否已注册电子邮件?

来自分类Dev

Lotus Notes / IBM注释/ Domino 9-如何在Lotus脚本中以编程方式使电子邮件阅读/未阅读?

来自分类Dev

在magento中以编程方式创建电子邮件并将其发送给客户重设密码链接

来自分类Dev

如何在Azure中以编程方式接收电子邮件?

来自分类Dev

如何在Azure中以编程方式接收电子邮件?

来自分类Dev

创建用户的电子邮件地址时,如何以编程方式附加辅助电子邮件

来自分类Dev

如何以编程方式为Outlook生成电子邮件线程?

来自分类Dev

如何以编程方式将电子邮件打印为pdf

来自分类Dev

如何以编程方式向用户发送电子邮件?(OpenERP和Python)

来自分类Dev

Woocommerce - 如何以编程方式停止发送电子邮件通知(有时)

来自分类Dev

从阵列中获取图像并将其嵌入到电子邮件正文中

来自分类Dev

从阵列中获取图像并将其嵌入到电子邮件正文中

来自分类Dev

从div中选择文本并将其包含到电子邮件中

来自分类Dev

如何以编程方式保存C#中由用户使用CTRL-C复制到剪贴板的Outlook电子邮件附件(例如PDF)

来自分类Dev

Selenium:如何上传照片并将其插入电子邮件中?

来自分类Dev

在Android中以编程方式启动电子邮件客户端并将电子邮件地址传递给客户端

来自分类Dev

如何以编程方式将字符串转换为图像格式

来自分类Dev

如何保存电子邮件中的图像?

来自分类Dev

如何在wp8中以编程方式获取主要或辅助电子邮件地址?

来自分类Dev

如何在wp8中以编程方式获取主要或辅助电子邮件地址?

来自分类Dev

如何在php中将页面的所有电子邮件地址转换为图像?

来自分类Dev

如何使用Jmeter阅读Gmail中的最新电子邮件?

来自分类Dev

sp_send_dbmail如何将查询转换为电子邮件正文中的文本

来自分类Dev

如何在Java中将格式化的电子邮件转换为纯文本?

来自分类Dev

如何将多个电子邮件的文本文件转换为mbox?

来自分类Dev

将HTML内容转换为HTML支持的电子邮件中的纯文本

Related 相关文章

  1. 1

    如何以编程方式阅读图像中的电子邮件并将其转换为文本?

  2. 2

    在 Thunderbird 中,在撰写电子邮件时,如何将其从纯文本转换为 HTML?

  3. 3

    如何以编程方式触发Django 1.7.6中的密码重置电子邮件?

  4. 4

    如何以编程方式检查电报中是否已注册电子邮件?

  5. 5

    Lotus Notes / IBM注释/ Domino 9-如何在Lotus脚本中以编程方式使电子邮件阅读/未阅读?

  6. 6

    在magento中以编程方式创建电子邮件并将其发送给客户重设密码链接

  7. 7

    如何在Azure中以编程方式接收电子邮件?

  8. 8

    如何在Azure中以编程方式接收电子邮件?

  9. 9

    创建用户的电子邮件地址时,如何以编程方式附加辅助电子邮件

  10. 10

    如何以编程方式为Outlook生成电子邮件线程?

  11. 11

    如何以编程方式将电子邮件打印为pdf

  12. 12

    如何以编程方式向用户发送电子邮件?(OpenERP和Python)

  13. 13

    Woocommerce - 如何以编程方式停止发送电子邮件通知(有时)

  14. 14

    从阵列中获取图像并将其嵌入到电子邮件正文中

  15. 15

    从阵列中获取图像并将其嵌入到电子邮件正文中

  16. 16

    从div中选择文本并将其包含到电子邮件中

  17. 17

    如何以编程方式保存C#中由用户使用CTRL-C复制到剪贴板的Outlook电子邮件附件(例如PDF)

  18. 18

    Selenium:如何上传照片并将其插入电子邮件中?

  19. 19

    在Android中以编程方式启动电子邮件客户端并将电子邮件地址传递给客户端

  20. 20

    如何以编程方式将字符串转换为图像格式

  21. 21

    如何保存电子邮件中的图像?

  22. 22

    如何在wp8中以编程方式获取主要或辅助电子邮件地址?

  23. 23

    如何在wp8中以编程方式获取主要或辅助电子邮件地址?

  24. 24

    如何在php中将页面的所有电子邮件地址转换为图像?

  25. 25

    如何使用Jmeter阅读Gmail中的最新电子邮件?

  26. 26

    sp_send_dbmail如何将查询转换为电子邮件正文中的文本

  27. 27

    如何在Java中将格式化的电子邮件转换为纯文本?

  28. 28

    如何将多个电子邮件的文本文件转换为mbox?

  29. 29

    将HTML内容转换为HTML支持的电子邮件中的纯文本

热门标签

归档