私はPOIを使用して.docファイルを解析していましたが、テキスト装飾が機能するようになると、ApacheTikaにたどり着きました。のような単純なテキスト装飾でテキストを抽出できる<i></i>
ようになりましたが、より複雑なスタイルを処理できるようにしたいと思います。私のドキュメントには、さまざまなフォントサイズ、下付き文字、上付き文字などが含まれています。Tikaでこのすべての情報を取得する方法はありますか?そうでない場合、誰かが私に採用するのにより適したツールを教えてもらえますか?
ご存知のように、Tikaは現時点では<i>と<b>以上のものを処理していません。ドキュメントの複雑さに応じて、POIを直接使用することを検討することもできます(おそらく、Tikaのパーサーを例として使用してください)。また、tika devリスト([email protected])で、他のフォーマット機能をTikaに追加することに関心があるかどうかを尋ねたり、Jiraサイトでチケットを開いたりすることもできます。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加