如何使用Apache Tika获取PDF元素的样式信息？

debugcn 发表于 Dev

舍哈尔

我正在和Apache Tika一起玩耍，以从PDF文件中提取文本。我想知道如何使用Apache Tika获得样式信息，例如字体大小，文本颜色，特定文本（几个单词）是否用斜体，粗体等表示？

是否有可能获得此类信息？

另外，我想是否可以使用Apache Tika获取表信息？信息，例如表的开始，第一行的开始，第一个单元格等。

yeaaaahhhh..hamf hamf

使用另一个类似PDFTextStream的api可能更方便。Tika从pdf提取原始文本信息，而PDFTextStream为您提供具有相关信息的结构化文本，例如字符编码，高度，文本区域等。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-3

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何使用Apache Tika获取PDF中元素的样式信息？

来自分类Dev

有没有办法使用Apache Tika从文档文件中获取所有样式？

来自分类Dev

（如何）我可以使用Apache Tika在.DOC或.PDF或.JAVA等文件中搜索短语吗？

来自分类Dev

如何使用Apache Royale设置Button样式

来自分类Dev

如何使用Apache PDFBox选择PDF文本？

来自分类Dev

如何使用Apache PDFBox拆分PDF？

来自分类Dev

您如何使用Apache Digester忽略元素？

来自分类Dev

如何使用Apache Tika编写自定义ContentHandler？

来自分类Dev

使用 Apache Tika + Tesseract 提取扫描 PDF 的速度缓慢

来自分类Dev

如何获取元素的样式值-jQuery

来自分类Dev

如何获取当前元素的计算样式

来自分类Dev

如何获取元素的样式值-jQuery

来自分类Dev

如何使用JQuery从单击的元素中获取信息？

来自分类Dev

使用 .find() 获取缓存的 dom 元素的样式

来自分类Dev

如何获取HTML元素的位置信息

来自分类Dev

如何从JSOUP中的元素获取特定信息？

来自分类Dev

如何获取元素的“指定”样式而不是计算样式

来自分类Dev

索引PDF-使用Apache Solr和Apache Tika进行分面搜索

来自分类Dev

Stormcrawler：用于解析 PDF 属性的 Apache Tika

来自分类Dev

如何使用Apache PDFBox从PDF文件提取文本

来自分类Dev

如何使用Apache pdfbox在PDF中生成多行

来自分类Dev

如何使用Apache Poi在Java中将PDF转换为Excel

来自分类Dev

如何使用Sag从Apache CouchDB文档获取附件？

来自分类Dev

如何使用Apache Camel获取目录中的文件数？

来自分类Dev

如何使用Node.js在Apache Storm中获取输出

来自分类Dev

如何使用 Apache POI 从 Excel 获取货币代码？

来自分类Dev

如何使用 apache pheonix 获取现有表的 ddl

来自分类Dev

如何使用 Perl 从 Apache Solr 的响应中获取 numFound 值

来自分类Dev

如何使用apache.xcerces从Java中的架构元素获取maxInclusive值？

Related 相关文章

文章