在不使用任何其他库的情况下,有人将如何应对用Python读取.pdf文件的元数据的挑战?

德尼卜

我知道这不是一个简单的问题,并且我不希望得到一个简单的答案。我想更多地了解这一点,而唯一的方法就是艰难的方法。

我应该采取哪些第一步?

斯卡姆西

如果您想获得“ CreationDate”,“ Author”和此类条目,则可以尝试这种快速而肮脏的解决方案。通常,pdf中的此信息应如下所示:

obj
<<
/Author(NameOfAuthor)
/CreationDate(D:20040910110429)
/Producer(AcrobatPdfWriter)
>>
endobj

不确定是否适用于所有pdf格式,但是我得到了一些不错的数据,之后可以对其进行“清理”。仅当条目在单独的行上时才有效。

metadata_fields = ['Creator', 'CreationDate', 'Producer', 'ModDate']
with open('path_to_your_file.pdf') as my_pdf:
  meta_values = [line.rstrip('\n') for line in my_pdf.readlines() 
             for item in metadata_fields if item in line]
  print meta_values

输出:

['<</Producer(AFPL Ghostscript 8.11)', '/CreationDate(D:20040910110429)',
 '/ModDate(D:20040910110429)', '/Creator(PDFCreator Version 0.8.0)']

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何从R中读取PDF元数据

来自分类Dev

在不解密文件的情况下读取加密的pdf元数据

来自分类Dev

如何在不使用Python外部库的情况下解析Arff文件

来自分类Dev

如何在不使用Java进行任何缓冲的情况下读取文件?

来自分类Dev

如何在没有“离开页面”对话框或任何其他提示的情况下下载文件?

来自分类Dev

如何在不使用stdio.h库的情况下从文件读取和写入?

来自分类Dev

是否可以在不使用任何头文件的情况下用C ++执行I / O操作?

来自分类Dev

如何通过元数据搜索pdf文件

来自分类Dev

如何在不使用相对导入的情况下从另一个目录中的Python脚本执行文件(导入其他模块)?

来自分类Dev

如何在不使用eval函数的情况下使用python从文件的特定行读取json数组

来自分类Dev

如何从PDF读取PieceInfo每页元数据

来自分类Dev

在不使用其他功能文件调用的情况下

来自分类Dev

如何通过元数据搜索pdf文件

来自分类Dev

如何在使用任何其他数据库时获取JavaScript中所有mongo数据库的列表?

来自分类Dev

如何在不使用Python外部库的情况下解析Arff文件

来自分类Dev

如何在没有管理权限的情况下向Axapta数据库添加其他信息?

来自分类Dev

在不使用PreparedStatement的情况下用Java清理数据库输入

来自分类Dev

使用ruby编辑现有的pdf文件元数据(应用密码保护)

来自分类Dev

使用Exiftool或PDFtk从文件名写入PDF元数据

来自分类Dev

如何在不使用整个地址的情况下链接到其他目录中的文件?

来自分类Dev

在Intellij上没有其他前缀的情况下无法读取文件

来自分类Dev

如何在不使用IDE的情况下使用其他资源创建.jar文件

来自分类Dev

是否可以在不使用任何头文件的情况下用C ++执行I / O操作?

来自分类Dev

如何将更多的元数据添加到pdf文件中,以便获得更多信息

来自分类Dev

使用 bash 脚本和 exiftool 添加部分文件名作为 PDF 元数据

来自分类Dev

如何在Laravel中不使用任何关系的情况下删除多表数据库中的数据

来自分类Dev

如何在没有 JS 标签显示在 HTML 中的情况下,使用 PHP 和 JS 从其他站点读取数据?

来自分类Dev

如何在 Pandas 或任何其他 Python 库中“缩放数据”

来自分类Dev

如何在不使用任何数据库的情况下制作动态注册表单?

Related 相关文章

  1. 1

    如何从R中读取PDF元数据

  2. 2

    在不解密文件的情况下读取加密的pdf元数据

  3. 3

    如何在不使用Python外部库的情况下解析Arff文件

  4. 4

    如何在不使用Java进行任何缓冲的情况下读取文件?

  5. 5

    如何在没有“离开页面”对话框或任何其他提示的情况下下载文件?

  6. 6

    如何在不使用stdio.h库的情况下从文件读取和写入?

  7. 7

    是否可以在不使用任何头文件的情况下用C ++执行I / O操作?

  8. 8

    如何通过元数据搜索pdf文件

  9. 9

    如何在不使用相对导入的情况下从另一个目录中的Python脚本执行文件(导入其他模块)?

  10. 10

    如何在不使用eval函数的情况下使用python从文件的特定行读取json数组

  11. 11

    如何从PDF读取PieceInfo每页元数据

  12. 12

    在不使用其他功能文件调用的情况下

  13. 13

    如何通过元数据搜索pdf文件

  14. 14

    如何在使用任何其他数据库时获取JavaScript中所有mongo数据库的列表?

  15. 15

    如何在不使用Python外部库的情况下解析Arff文件

  16. 16

    如何在没有管理权限的情况下向Axapta数据库添加其他信息?

  17. 17

    在不使用PreparedStatement的情况下用Java清理数据库输入

  18. 18

    使用ruby编辑现有的pdf文件元数据(应用密码保护)

  19. 19

    使用Exiftool或PDFtk从文件名写入PDF元数据

  20. 20

    如何在不使用整个地址的情况下链接到其他目录中的文件?

  21. 21

    在Intellij上没有其他前缀的情况下无法读取文件

  22. 22

    如何在不使用IDE的情况下使用其他资源创建.jar文件

  23. 23

    是否可以在不使用任何头文件的情况下用C ++执行I / O操作?

  24. 24

    如何将更多的元数据添加到pdf文件中,以便获得更多信息

  25. 25

    使用 bash 脚本和 exiftool 添加部分文件名作为 PDF 元数据

  26. 26

    如何在Laravel中不使用任何关系的情况下删除多表数据库中的数据

  27. 27

    如何在没有 JS 标签显示在 HTML 中的情况下,使用 PHP 和 JS 从其他站点读取数据?

  28. 28

    如何在 Pandas 或任何其他 Python 库中“缩放数据”

  29. 29

    如何在不使用任何数据库的情况下制作动态注册表单?

热门标签

归档