我正在和Apache Tika一起玩耍,以从PDF文件中提取文本。我想知道如何使用Apache Tika获得样式信息,例如字体大小,文本颜色,特定文本(几个单词)是否用斜体,粗体等表示?
是否有可能获得此类信息?
另外,我想是否可以使用Apache Tika获取表信息?信息,例如表的开始,第一行的开始,第一个单元格等。
使用另一个类似PDFTextStream的api可能更方便。Tika从pdf提取原始文本信息,而PDFTextStream为您提供具有相关信息的结构化文本,例如字符编码,高度,文本区域等。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句