Apache Tikaを使用してドキュメントファイルからすべてのスタイルを取得する方法はありますか？

debugcn 投稿 Dev

ノラ

私はPOIを使用して.docファイルを解析していましたが、テキスト装飾が機能するようになると、ApacheTikaにたどり着きました。のような単純なテキスト装飾でテキストを抽出できる<i></i>ようになりましたが、より複雑なスタイルを処理できるようにしたいと思います。私のドキュメントには、さまざまなフォントサイズ、下付き文字、上付き文字などが含まれています。Tikaでこのすべての情報を取得する方法はありますか？そうでない場合、誰かが私に採用するのにより適したツールを教えてもらえますか？

ティム・アリソン

ご存知のように、Tikaは現時点では<i>と<b>以上のものを処理していません。ドキュメントの複雑さに応じて、POIを直接使用することを検討することもできます（おそらく、Tikaのパーサーを例として使用してください）。また、tika devリスト（[email protected]）で、他のフォーマット機能をTikaに追加することに関心があるかどうかを尋ねたり、Jiraサイトでチケットを開いたりすることもできます。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-10

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Apache Tikaを使用してドキュメントファイルからすべてのスタイルを取得する方法はありますか？

Apache Tikaを使用してドキュメントファイルからすべてのスタイルを取得する方法はありますか？

Apacheを使用してドキュメントルート外のファイルにアクセスする

Apache Antで、antコマンドから引数を取得し、それをプロパティファイルのキーとして使用する方法はありますか？

段落をコピーする方法には、apache poiの新しいドキュメントに文字スタイルが含まれていますか？

追加のフィールドでCSVコンテンツデータを強化し、Apacheキャメルを使用して区切り文字としてパイプを使用してテキストファイルに変換する方法

ファイルからJSONオブジェクトを取得し、Apache Camelルートを使用してJavaクラスにマッピングする方法は？

Apache POIを使用してExcelファイルから列を取得するには

Apache PDFBoxを使用してPDFファイルからテキストを抽出する方法

ApacheのPOIで与えられたPowerPointファイルから正確にスピーカーノートを取得する方法はありますか？

Apache POIを使用して.xlsファイルと.xlsxファイルの両方を読み取る方法はありますか？

Apache Tikaを使用してPDFの要素のスタイル情報を取得するにはどうすればよいですか？

Apache Antを使用して、jarファイルがビルドされた後に更新する方法はありますか？

FTPなしでApacheのwwwフォルダー内のすべてのファイルのリストを取得することは可能ですか？

Apache Luceneを使用してディスク内のすべてのインデックスデータ/ファイルを削除しますか？

Apache2.4.7はすべての.cssファイルをロードするわけではありません

Java Apache POIを使用して特定の単語のフォントスタイルをdocxファイルから変更する

filezilla ftpを使用してApacheサーバーのルートドキュメントディレクトリにファイルをアップロードするにはどうすればよいですか？

apache nifiのプロセッサを使用してjsonフィールドから値を抽出し、その値を別のjsonファイルに置き換える方法はありますか？

Java / Apache Tika：URLからファイルの最後に変更/作成された属性を取得する方法

Apache Beam FileIOを使用してレコードごとに1つのファイルを書き込む方法はありますか？

Apache mod_expiresを使用してphpをキャッシュします。phpファイルのmimeタイプは何ですか？

フォルダーからすべてのファイルを含めるようにApacheを作成する方法

ApacheアクセスログからすべてのIPを解析し、bashスクリプトのCSVファイルでそれらからの一意のリクエストをカウントする方法は？

Apacheを使用してPHPでリアルタイムのスタックトレースを行う方法はありますか？

Apache Camel：Premove、Move、MoveFailedオプションを使用してSFTPから複数のファイルをダウンロードする方法は？

すでにHadoopをインストールしている場合、Apache Spark WITHHadoopまたはWITHOUTHadoopをダウンロードする必要がありますか？

CSVとTSVのファイルが10個あります。Apache HadoopのMapReduceを使用して、CSVおよびTSVデータとは何かを出力したい

Apache-POIを使用してExcelファイルからレコードを検索する効率的な方法

Apache Tika（Scala内）を使用してスライドごとにテキストを抽出するにはどうすればよいですか？

Apacheを介してファイルをダウンロード可能にすることはできますか？