PDFファイルからテキストを抽出するためにApacheTikaで遊んでいます。Apache Tikaを使用して、フォントサイズ、テキストの色、特定のテキスト(数語)が斜体、太字などであるかどうかなどのスタイル情報を取得する方法を知りたいですか?
この種の情報を入手することさえ可能ですか?
また、Apache Tikaを使用してテーブル情報を取得できるかどうかも知りたいですか?テーブルの開始、最初の行の開始、最初のセルなどの情報。
PDFTextStreamのような別のAPIを使用する方がおそらく便利です。TikaはPDFから生のテキスト情報を抽出しますが、PDFTextStreamは、文字エンコード、高さ、テキストの領域などの相関情報を含む構造化テキストを提供します。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加