Apache Tikaを使用してドキュメントファイルからすべてのスタイルを取得する方法はありますか?

ノラ

私はPOIを使用して.docファイルを解析していましたが、テキスト装飾が機能するようになると、ApacheTikaにたどり着きました。のような単純なテキスト装飾でテキストを抽出できる<i></i>ようになりましたが、より複雑なスタイルを処理できるようにしたいと思います。私のドキュメントには、さまざまなフォントサイズ、下付き文字、上付き文字などが含まれています。Tikaでこのすべての情報を取得する方法はありますか?そうでない場合、誰かが私に採用するのにより適したツールを教えてもらえますか?

ティム・アリソン

ご存知のように、Tikaは現時点では<i>と<b>以上のものを処理していません。ドキュメントの複雑さに応じて、POIを直接使用することを検討することもできます(おそらく、Tikaのパーサーを例として使用してください)。また、tika devリスト([email protected])で、他のフォーマット機能をTikaに追加することに関心があるかどうかを尋ねたり、Jiraサイトでチケットを開いたりすることもできます

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Apacheを使用してドキュメントルート外のファイルにアクセスする

分類Dev

Apache Antで、antコマンドから引数を取得し、それをプロパティファイルのキーとして使用する方法はありますか?

分類Dev

段落をコピーする方法には、apache poiの新しいドキュメントに文字スタイルが含まれていますか?

分類Dev

追加のフィールドでCSVコンテンツデータを強化し、Apacheキャメルを使用して区切り文字としてパイプを使用してテキストファイルに変換する方法

分類Dev

ファイルからJSONオブジェクトを取得し、Apache Camelルートを使用してJavaクラスにマッピングする方法は?

分類Dev

Apache POIを使用してExcelファイルから列を取得するには

分類Dev

Apache PDFBoxを使用してPDFファイルからテキストを抽出する方法

分類Dev

ApacheのPOIで与えられたPowerPointファイルから正確にスピーカーノートを取得する方法はありますか?

分類Dev

Apache POIを使用して.xlsファイルと.xlsxファイルの両方を読み取る方法はありますか?

分類Dev

Apache Tikaを使用してPDFの要素のスタイル情報を取得するにはどうすればよいですか?

分類Dev

Apache Antを使用して、jarファイルがビルドされた後に更新する方法はありますか?

分類Dev

FTPなしでApacheのwwwフォルダー内のすべてのファイルのリストを取得することは可能ですか?

分類Dev

Apache Luceneを使用してディスク内のすべてのインデックスデータ/ファイルを削除しますか?

分類Dev

Apache2.4.7はすべての.cssファイルをロードするわけではありません

分類Dev

Java Apache POIを使用して特定の単語のフォントスタイルをdocxファイルから変更する

分類Dev

filezilla ftpを使用してApacheサーバーのルートドキュメントディレクトリにファイルをアップロードするにはどうすればよいですか?

分類Dev

apache nifiのプロセッサを使用してjsonフィールドから値を抽出し、その値を別のjsonファイルに置き換える方法はありますか?

分類Dev

Java / Apache Tika:URLからファイルの最後に変更/作成された属性を取得する方法

分類Dev

Apache Beam FileIOを使用してレコードごとに1つのファイルを書き込む方法はありますか?

分類Dev

Apache mod_expiresを使用してphpをキャッシュします。phpファイルのmimeタイプは何ですか?

分類Dev

フォルダーからすべてのファイルを含めるようにApacheを作成する方法

分類Dev

ApacheアクセスログからすべてのIPを解析し、bashスクリプトのCSVファイルでそれらからの一意のリクエストをカウントする方法は?

分類Dev

Apacheを使用してPHPでリアルタイムのスタックトレースを行う方法はありますか?

分類Dev

Apache Camel:Premove、Move、MoveFailedオプションを使用してSFTPから複数のファイルをダウンロードする方法は?

分類Dev

すでにHadoopをインストールしている場合、Apache Spark WITHHadoopまたはWITHOUTHadoopをダウンロードする必要がありますか?

分類Dev

CSVとTSVのファイルが10個あります。Apache HadoopのMapReduceを使用して、CSVおよびTSVデータとは何かを出力したい

分類Dev

Apache-POIを使用してExcelファイルからレコードを検索する効率的な方法

分類Dev

Apache Tika(Scala内)を使用してスライドごとにテキストを抽出するにはどうすればよいですか?

分類Dev

Apacheを介してファイルをダウンロード可能にすることはできますか?

Related 関連記事

  1. 1

    Apacheを使用してドキュメントルート外のファイルにアクセスする

  2. 2

    Apache Antで、antコマンドから引数を取得し、それをプロパティファイルのキーとして使用する方法はありますか?

  3. 3

    段落をコピーする方法には、apache poiの新しいドキュメントに文字スタイルが含まれていますか?

  4. 4

    追加のフィールドでCSVコンテンツデータを強化し、Apacheキャメルを使用して区切り文字としてパイプを使用してテキストファイルに変換する方法

  5. 5

    ファイルからJSONオブジェクトを取得し、Apache Camelルートを使用してJavaクラスにマッピングする方法は?

  6. 6

    Apache POIを使用してExcelファイルから列を取得するには

  7. 7

    Apache PDFBoxを使用してPDFファイルからテキストを抽出する方法

  8. 8

    ApacheのPOIで与えられたPowerPointファイルから正確にスピーカーノートを取得する方法はありますか?

  9. 9

    Apache POIを使用して.xlsファイルと.xlsxファイルの両方を読み取る方法はありますか?

  10. 10

    Apache Tikaを使用してPDFの要素のスタイル情報を取得するにはどうすればよいですか?

  11. 11

    Apache Antを使用して、jarファイルがビルドされた後に更新する方法はありますか?

  12. 12

    FTPなしでApacheのwwwフォルダー内のすべてのファイルのリストを取得することは可能ですか?

  13. 13

    Apache Luceneを使用してディスク内のすべてのインデックスデータ/ファイルを削除しますか?

  14. 14

    Apache2.4.7はすべての.cssファイルをロードするわけではありません

  15. 15

    Java Apache POIを使用して特定の単語のフォントスタイルをdocxファイルから変更する

  16. 16

    filezilla ftpを使用してApacheサーバーのルートドキュメントディレクトリにファイルをアップロードするにはどうすればよいですか?

  17. 17

    apache nifiのプロセッサを使用してjsonフィールドから値を抽出し、その値を別のjsonファイルに置き換える方法はありますか?

  18. 18

    Java / Apache Tika:URLからファイルの最後に変更/作成された属性を取得する方法

  19. 19

    Apache Beam FileIOを使用してレコードごとに1つのファイルを書き込む方法はありますか?

  20. 20

    Apache mod_expiresを使用してphpをキャッシュします。phpファイルのmimeタイプは何ですか?

  21. 21

    フォルダーからすべてのファイルを含めるようにApacheを作成する方法

  22. 22

    ApacheアクセスログからすべてのIPを解析し、bashスクリプトのCSVファイルでそれらからの一意のリクエストをカウントする方法は?

  23. 23

    Apacheを使用してPHPでリアルタイムのスタックトレースを行う方法はありますか?

  24. 24

    Apache Camel:Premove、Move、MoveFailedオプションを使用してSFTPから複数のファイルをダウンロードする方法は?

  25. 25

    すでにHadoopをインストールしている場合、Apache Spark WITHHadoopまたはWITHOUTHadoopをダウンロードする必要がありますか?

  26. 26

    CSVとTSVのファイルが10個あります。Apache HadoopのMapReduceを使用して、CSVおよびTSVデータとは何かを出力したい

  27. 27

    Apache-POIを使用してExcelファイルからレコードを検索する効率的な方法

  28. 28

    Apache Tika(Scala内)を使用してスライドごとにテキストを抽出するにはどうすればよいですか?

  29. 29

    Apacheを介してファイルをダウンロード可能にすることはできますか?

ホットタグ

アーカイブ