PDFBox文本提取-空输出

本杰明·毛勒(Benjamin Maurer)

我正在尝试从一组PDF中提取一些信息。到目前为止,该方法仍然有效,但是一个PDF给我带来了不满。

我在Java 7中使用PDFBox 1.8.8。

PDDocument document = PDDocument.load(pdfFile);
PDFTextStripper stripper = new PDFTextStripper();
System.out.println("File: "+pdfFile.getAbsolutePath()+" readable: "+pdfFile.canRead()+" size: "+pdfFile.length());
System.out.println(stripper.getText(document));

它只是打印

File: /foo/bar/mypdf.pdf readable: true size: 1267743

然后终止。通常,我使用writeText方法并通过流漏斗文本,但是为了简化起见,使用了上面的代码。我尝试过使用PDF转换pdftotext-它的工作原理与其他PDF相同

我也不例外,一无所有。有任何想法吗?

编辑:附加信息:使用Acrobat Distiller 9.0.0(Windows)创建,格式为PDF-1.6;其他PDF版本为1.4和1.5

似乎不包含外来字符。我可以在Evince PDF查看器中标记/复制文本

编辑2:

该死的。文件属性对话框(Nautilus)表示“安全性:否”,但显示pdfinfo了以下内容:

Encrypted:      yes (print:yes copy:no change:no addNotes:no algorithm:AES)

反正要规避吗?毕竟,pdftotext可以把文本弄出来。

本杰明·毛勒(Benjamin Maurer)

该文档已“加密”(写保护),但未设置用户密码。这个Stackoverflow答案显示了如何删除加密并仅读取文件:使用pdfbox(例如qpdf)从pdf删除加密

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

文本输出中隐藏空值的问题

来自分类Dev

BeautifulSoup逐行输出提取的文本

来自分类Dev

从wrk输出中提取文本

来自分类Dev

使用PDFBOX根据PDF中的输出识别文本

来自分类Dev

使用PDFBOX根据PDF中的输出识别文本

来自分类Dev

Java:Apache PDFbox提取突出显示的文本

来自分类Dev

如何使用pdfbox从pdf提取粗体文本?

来自分类Dev

使用PDFBox 2.0从PDF提取文本

来自分类Dev

使用PDFbox从区域中提取文本

来自分类Dev

无法输出到文本文件,文件为空

来自分类Dev

如果 SQL 值为空,则输出文本

来自分类Dev

如何使用Apache PDFBox从PDF文件提取文本

来自分类Dev

使用Apache PDFBox提取错误字符的文本?

来自分类Dev

如何使用 Apache PDFBox 从按钮中提取标签文本?

来自分类Dev

使用 pdfbox 2.0.X jars 提取文本

来自分类Dev

如何使用python webcrawler获取HTML子类的文本?输出似乎是一个空数组

来自分类Dev

Python Selenium文本字段的打印输出值显示为空。该值不打印

来自分类Dev

使用Jsoup结果从php提取文本为空的textView

来自分类Dev

使用PDFBox提取便签

来自分类Dev

空数组输出结果

来自分类Dev

HexDecoder输出为空

来自分类Dev

PHP getimagesize空输出

来自分类Dev

summarise()提供空输出

来自分类Dev

标准输出为空

来自分类Dev

HexDecoder输出为空

来自分类Dev

CSV输出为空

来自分类Dev

Java数组输出“空”

来自分类Dev

获取空输出

来自分类Dev

从数组获取空输出