こんにちはみんな私はHTMLファイルでタグ「<br/>」を選択しようとしていますが、ここでは機能していません。サイトのソースです。
</div><p><a href="http://www.pinoyfitness.com/wp-content/uploads/2014/03/sofitel-manila-half-marathon-2014-poster.jpg"><img src="http://www.pinoyfitness.com/wp-content/uploads/2014/03/sofitel-manila-half-marathon-2014-poster-540x783.jpg" alt="sofitel-manila-half-marathon-2014-poster" width="540" height="783" class="aligncenter size-medium wp-image-32747" /></a></p>
<p>Introducing the Manila Half Marathon happening on August 17, 2014 at the SM Mall of Asia Grounds. This race is for the benefit of the children of <a href="http://www.virlanie.org/" rel="nofollow" target="_blank">Virlanie</a></p>
<p><font size="3"><strong>Sofitel Manila Half-Marathon 2014</strong></font><br />
August 17, 2014 @ 3AM<br />
SM Mall of Asia<br />
5K/10K/21K<br />
Organizer: RunRio</p>
<p><strong>Registration Fees:</strong><br />
21K – P950<br />
10K – P850<br />
5K – P750</p>
これが私のこれまでの仕事です:
doc = Jsoup.connect("http://www.pinoyfitness.com/2014/03/manila-half-marathon-august-17-2014/").timeout(0).get();
Element bod = doc.body();
Elements info = bod.select("br");
String textString = info.text();
System.out.println(textString);
簡単に分割してフォーマットできるように、「<br/>」を使用してhtmlコードを取得しようとしています。
しかし、要素「P」を選択すると、「<br/>」を含まないすべてのテキストが次のように印刷されます。「2014年8月17日にSMモールオブアジアグラウンドで開催されるマニラハーフマラソンの紹介。このレースはVirlanieSofitelマニラハーフマラソン2014の子供たちの利益2014年8月17日@ 3AMSMモールオブアジア5K / 10K / 21Kオーガナイザー」
私はJSOUPを初めて使用するので、newbeeエラーなどが発生した場合は、気楽に行ってください。前もって感謝します。
<br/>
解析されたコンテンツのタグを保持したい場合、問題のやや単純な解決策<br/>
は、元のHTMLコードのすべてのタグをテキストプレースホルダーに置き換えることです(ここからそれを行うための便利な正規表現):
html.replaceAll("(?i)<br[^>]*>", "br2n")
次にtextString.split("br2n")
、これがあなたが達成しようとしてきたことであるならば、あなたはすることができます。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加