如何从pdf中提取电子邮件

阿明·梅萨乌迪

我正在尝试使用 pdfminer 和正则表达式从简历中提取电子邮件

from io import StringIO
from pdfminer3.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer3.converter import TextConverter
from pdfminer3.layout import LAParams
from pdfminer3.pdfpage import PDFPage
import re

def get_cv_email(self, cv_path):
    pagenums = set()
    output = StringIO()
    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)
    infile = open(cv_path, 'rb')
    for page in PDFPage.get_pages(infile, pagenums):
        interpreter.process_page(page)
    infile.close()
    converter.close()
    text = output.getvalue()
    output.close()
    match = re.search(r'[\w\.-]+@[\w\.-]+', text)
    email = match.group(0)
    return email

大多数简历都成功提取了电子邮件,但它并不能一直正常工作

示例:[email protected]

更新:如果电子邮件以大写开头,我如何编辑我的正则表达式以忽略它之后的内容

丹尼斯洛尔

根据您的最后一条评论匹配您正在匹配的电子邮件,直到在@您可以使用此正则表达式后找到大写字母

[\w\.-]+@[a-z0-9\.-]+

举个例子:

import re
text = "[email protected]"
match = re.search(r'[\w\.-]+@[a-z0-9\.-]+', text)
email = match.group(0)

print(email)
#[email protected]

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何从文件中提取电子邮件?

来自分类Dev

从包含电子邮件的 PDF 中提取名称

来自分类Dev

如何从用户数组中提取电子邮件

来自分类Dev

如何从原始电子邮件中提取图像?

来自分类Dev

如何仅从电子邮件日期中提取年份

来自分类Dev

如何从原始电子邮件中提取图像?

来自分类Dev

如何从Excel中的电子邮件中提取结尾

来自分类Dev

如何从电子邮件标题中提取附件?

来自分类Dev

如何使用grep从日志中提取电子邮件

来自分类Dev

从电子邮件中提取证书

来自分类Dev

从网页中提取隐藏的电子邮件

来自分类Dev

从标题中提取电子邮件

来自分类Dev

如何从python的RFC 2822邮件标题中提取多个电子邮件地址?

来自分类Dev

如何从今天收到的 Outlook 邮件中提取电子邮件附件?

来自分类Dev

如何从传入的电子邮件中提取信息以自动执行清单?

来自分类Dev

如何从公司名称中提取电子邮件ID

来自分类Dev

如何使用sql select语句从URL或电子邮件中提取域?

来自分类Dev

如何在Perl中从正文电子邮件中提取href?

来自分类Dev

如何使用Java从Outlook电子邮件2010中提取附件?

来自分类Dev

如何使用Jsoup从网页中提取多个电子邮件地址?

来自分类Dev

如何从电子邮件正文中提取附件(编码为base64)

来自分类Dev

如何使用CMD从文本文件中提取电子邮件地址和密码?

来自分类Dev

Javascript。如何从字符串中提取 URI 编码的电子邮件?

来自分类Dev

如何使用javaScript在HTML电子邮件中提取VML(Outlook代码)中的href链接?

来自分类Dev

如何使用 Ruby on Rails 从字符串中提取电子邮件地址?

来自分类Dev

从列R中的不同电子邮件中提取特定电子邮件

来自分类Dev

VBA文本循环优化-从文本中提取电子邮件

来自分类Dev

使用Oracle Regexp从字段中提取电子邮件

来自分类Dev

R gsub从文本中提取电子邮件

Related 相关文章

  1. 1

    如何从文件中提取电子邮件?

  2. 2

    从包含电子邮件的 PDF 中提取名称

  3. 3

    如何从用户数组中提取电子邮件

  4. 4

    如何从原始电子邮件中提取图像?

  5. 5

    如何仅从电子邮件日期中提取年份

  6. 6

    如何从原始电子邮件中提取图像?

  7. 7

    如何从Excel中的电子邮件中提取结尾

  8. 8

    如何从电子邮件标题中提取附件?

  9. 9

    如何使用grep从日志中提取电子邮件

  10. 10

    从电子邮件中提取证书

  11. 11

    从网页中提取隐藏的电子邮件

  12. 12

    从标题中提取电子邮件

  13. 13

    如何从python的RFC 2822邮件标题中提取多个电子邮件地址?

  14. 14

    如何从今天收到的 Outlook 邮件中提取电子邮件附件?

  15. 15

    如何从传入的电子邮件中提取信息以自动执行清单?

  16. 16

    如何从公司名称中提取电子邮件ID

  17. 17

    如何使用sql select语句从URL或电子邮件中提取域?

  18. 18

    如何在Perl中从正文电子邮件中提取href?

  19. 19

    如何使用Java从Outlook电子邮件2010中提取附件?

  20. 20

    如何使用Jsoup从网页中提取多个电子邮件地址?

  21. 21

    如何从电子邮件正文中提取附件(编码为base64)

  22. 22

    如何使用CMD从文本文件中提取电子邮件地址和密码?

  23. 23

    Javascript。如何从字符串中提取 URI 编码的电子邮件?

  24. 24

    如何使用javaScript在HTML电子邮件中提取VML(Outlook代码)中的href链接?

  25. 25

    如何使用 Ruby on Rails 从字符串中提取电子邮件地址?

  26. 26

    从列R中的不同电子邮件中提取特定电子邮件

  27. 27

    VBA文本循环优化-从文本中提取电子邮件

  28. 28

    使用Oracle Regexp从字段中提取电子邮件

  29. 29

    R gsub从文本中提取电子邮件

热门标签

归档