如何使用Java和Jsoup解析HTML文本和链接

德罗格里格拉

我需要解析网页中的文本。文本以这种方式显示:

nonClickableText= link1 link2  nonClickableText2= link1 link2

我希望能够将所有内容转换为java中的字符串。不可点击的文本应保持原样,而可点击的文本应替换为其实际链接。

所以在Java中我会这样:

String parsedHTML = "nonClickableText= example.com example.com nonClickableText2= example3.com example4.com";

这是一些图片:第一

弗雷德里克·克莱恩(Frederic Klein)

究竟是link1link2根据你的例子

“ ... nonClickableText2 = example3.com example4.com”

它们可以不同,那么除了之外,还有什么来源href

根据您的图像,以下代码应为您提供一切以采用最终的字符串表示形式。首先,我们抓取<strong>-block,然后使用<a>-children和前面的text-nodes遍历节点:

String htmlString = "<html><div><p><strong>\"notClickable1\"<a rel=\"nofollow\" target=\"_blank\" href=\"example1.com\">clickable</a>\"notClickable2\"<a rel=\"nofollow\" target=\"_blank\" href=\"example2.com\">clickable</a>\"notClickable3\"<a rel=\"nofollow\" target=\"_blank\" href=\"example3.com\">clickable</a></strong></p></div></html>";

Document doc = Jsoup.parse(htmlString); //can be replaced with Jsoup.connect("yourUrl").get();
String parsedHTML = "";

Element container = doc.select("div>p>strong").first();

for (Node node : container.childNodes()) {
    if(node.nodeName().equals("a") && node.previousSibling().nodeName().equals("#text")){
        parsedHTML += node.previousSibling().toString().replaceAll("\"", "");
        parsedHTML += "= " + node.attr("href").toString() + " ";
    }
}
parsedHTML.trim();

System.out.println(parsedHTML);

输出:

notClickable1= example1.com notClickable2= example2.com notClickable3= example3.com 

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

JSoup从html文件按顺序解析文本和链接

来自分类Dev

无法使用jsoup从网站html解析中获取文本和链接

来自分类Dev

如何在Java中从HTML删除<a>标签和链接文本

来自分类Dev

使用jsoup和android抓取网站链接

来自分类Dev

如何在HTML上添加文本和图像作为链接

来自分类Dev

如何使用python提取文本,链接和链接后的文本以及br之后的文本

来自分类Dev

如何使用Jsoup和Java从URL下载内容

来自分类Dev

如何使用jsoup解析HTML表?

来自分类Dev

如何使用 JSOUP 解析 html 表?

来自分类Dev

如何使用图标和按钮描述文本创建链接按钮

来自分类Dev

如何使用beautifulsoup从链接获取文本和URL

来自分类Dev

使用Jsoup解析HTML以获取单个元素的文本

来自分类Dev

Jsoup解析HTML以获取下标和上标

来自分类Dev

Jsoup解析html以获取下标和上标

来自分类Dev

如何使用Jsoup将android中的li和ul标签解析为列表视图

来自分类Dev

使用JSoup抓取电子邮件和链接

来自分类Dev

使用POI和Jsoup在错误的位置建立超链接

来自分类Dev

解析和存储HTML标签以及文本

来自分类Dev

从HTML文本解析和提取数据

来自分类Dev

解析和提取HTML文本中的数据

来自分类Dev

在Html.ActionLink()中创建动态链接文本和链接

来自分类Dev

Jsoup:获取文本和网址

来自分类Dev

解析和附加链接

来自分类Dev

Jsoup或Javač和č

来自分类Dev

如何在Java中使用JSoup通过表ID解析HTML表数据

来自分类Dev

如何使用jQuery从包装文本和图像的链接中仅删除文本?

来自分类Dev

如何使用 PHP 在文本块中查找、制作链接和缩短 url 文本

来自分类Dev

如何解析和比较文本?

来自分类Dev

如何使用jsoup从html中的<form action=中提取链接

Related 相关文章

热门标签

归档