tika-coreおよびtika-parserライブラリをダウンロードしましたが、HTMLドキュメントを文字列に解析するためのサンプルコードが見つかりませんでした。Webページのソースのすべてのhtmlタグを取り除く必要があります。私に何ができる?Apache Tikaを使用してそれをどのようにコーディングしますか?
HTMLファイルのプレーンテキストバージョンが必要ですか?もしそうなら、必要なのは次のようなものです:
InputStream input = new FileInputStream("myfile.html");
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
new HtmlParser().parse(input, handler, metadata, new ParseContext());
String plainText = handler.toString();
BodyContentHandlerは、コンストラクター引数なしで、または文字数制限なしで作成された場合、HTMLの本文の(のみ)テキストをキャプチャーして返します。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加