从jsoup中的许多<p>标记解析单个<p>标记

博士 纳西尔·乌丁(Nasir uddin bhuiyan)

我想从<p>I want only this line</p>标记中打印该行,并希望忽略所有其他行。

我有以下html:

<div class="my value"> 
<h2>Head2</h2>

<p>&nbsp;</p>

<p><strong></strong>Date</p>

<p></p>

<h2><u>Head2</u></h2>

<p>&nbsp;</p>

<p>I want only this line</p>

<p>&nbsp;</p>

<p><strong><u></u></strong></p>

<p>&nbsp;</p>

<p>I do not want this line</p>

</div>

而我的Java代码是:

String html = "link of the website that contains my html I have showed on top";
Document doc;
try {
    doc = Jsoup.connect(html).get();

    Elements link = doc.select("div.my.value");
    doc=Jsoup.parse(link.html());
    link =doc.select("p");
    String linkText = link.text();

    System.out.println("Link Text\n" + linkText);

} catch (IOException ex) {
    System.out.println("err: " + ex);
}

输出为:

我只想要这条线我不要这条线

但是我只想打印这一行,我只想打印此行,并且想忽略所有其他<p> </p>标签。我怎样才能做到这一点?

维克多·马丁内斯(Victor Martinez)

获得所需内容的关键是创建一个好的选择器。让我们来看一些使用HTML的示例:

1)按内容选择:p:contains(I want only this line)或者,如果您想更具体一点,div.my p:contains(I want only this line)

2)通过DOM中的位置进行选择: div p:eq(6)

为了获取元素,我更喜欢使用以下语句: Jsoup.parse(html).select("div.my p:contains(I want only this line)").first()

然后,您只需要检查返回的元素是否不为null。否则,您将获得NullPointException。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用jsoup解析xml(同时避免使用<p>标记)

来自分类Dev

Jekyll:标记出现在<p>标记中

来自分类Dev

Jekyll:标记出现在<p>标记中

来自分类Dev

如何只在<p>标记中替换单词?

来自分类Dev

div中的.find()顶级<p>标记

来自分类Dev

在CKEditor中更改<p>标记的默认大小

来自分类Dev

在JQuery中访问<p>标记值

来自分类Dev

如何用不在<p>标记中的<p>标记包围字符串-PHP?

来自分类Dev

如何用不在<p>标记中的<p>标记包围字符串-PHP?

来自分类Dev

在HTML中使用<p>标记

来自分类Dev

使用<p>标记内联div

来自分类Dev

在HTML中使用<p>标记

来自分类Dev

如何使表与p标记内联

来自分类Dev

IntelliJ / Android Studio中Javadoc中的<p />标记

来自分类Dev

Python lxml的XPath在<p>标记中找不到<ul>

来自分类Dev

如何在html的<p>标记中获取url的值

来自分类Dev

使用JavaScript在<div>中打印多个<p>标记

来自分类Dev

HTML <p>标记在Javascript中未更改

来自分类Dev

Python lxml的XPath在<p>标记中找不到<ul>

来自分类Dev

我正在尝试在论坛设置中浮动<p>标记

来自分类Dev

带有@variable的ms sql html中的p标记

来自分类Dev

使用 jquery 替换字符串中的空白 p 标记

来自分类Dev

Angular SyntaxError:JSON 中位置 0 的意外标记 P

来自分类Dev

如何使用jquery查找<p>标记中是否存在脚本标记?

来自分类Dev

使用BeautifulSoup删除<p>标记内的空白

来自分类Dev

如何用逗号替换<p>标记

来自分类Dev

如何在Arbre中标记段落(“ p”)?

来自分类Dev

无法获取后续<p>标记的.text()

来自分类Dev

在<p>标记中放入新行