我知道这不是一个简单的问题,并且我不希望得到一个简单的答案。我想更多地了解这一点,而唯一的方法就是艰难的方法。
我应该采取哪些第一步?
如果您想获得“ CreationDate”,“ Author”和此类条目,则可以尝试这种快速而肮脏的解决方案。通常,pdf中的此信息应如下所示:
obj
<<
/Author(NameOfAuthor)
/CreationDate(D:20040910110429)
/Producer(AcrobatPdfWriter)
>>
endobj
不确定是否适用于所有pdf格式,但是我得到了一些不错的数据,之后可以对其进行“清理”。仅当条目在单独的行上时才有效。
metadata_fields = ['Creator', 'CreationDate', 'Producer', 'ModDate']
with open('path_to_your_file.pdf') as my_pdf:
meta_values = [line.rstrip('\n') for line in my_pdf.readlines()
for item in metadata_fields if item in line]
print meta_values
输出:
['<</Producer(AFPL Ghostscript 8.11)', '/CreationDate(D:20040910110429)',
'/ModDate(D:20040910110429)', '/Creator(PDFCreator Version 0.8.0)']
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句