使用jsoup的HTML DOM的标记深度和最大标记深度

乔治·雷文(George Revan)

我想知道Jsoup是否可用于html页面。

公司和员工被视为html标签的HTML文档:

<company> 
        <staff id="1">
                <firstname>George</firstname>
                <lastname>Deren</lastname>
                <nickname>Revan</nickname>
                <salary>50000</salary>
                <age>24</age>
        <extra>
            <test>123</test>
        </extra>

例如,括号将包含该特定标签的DOM深度。

company[1]
staff[2]
firstname[3]
lastname[3]
nickname[3]
salary[3]
age[3]
extra[3]
test[4]

最深的层次是:4

Syam S

您可以为此使用节点访问者。它具有深度值。假设您的xml存储在data.xml文件中,那么此程序将打印您想要的内容

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Node;
import org.jsoup.nodes.TextNode;
import org.jsoup.parser.Parser;
import org.jsoup.select.NodeVisitor;

public class JsoupDepth {

    public static void main(String[] args) {
        File input = new File("data.xml");
        try {
            Document doc = Jsoup.parse(new FileInputStream(input), "UTF-8", "", Parser.xmlParser());
            doc.traverse(new NodeVisitor() {
                public void head(Node node, int depth) {
                    if(!(node instanceof TextNode)) {
                        System.out.println(node.nodeName() + "[" + depth + "]");
                    }
                }
                public void tail(Node node, int depth) {
                }
            });
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

}

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用JSoup在Java中修改html标记自身的文本

来自分类Dev

使用Jsoup一一从HTML标记中提取文本

来自分类Dev

JSOUP使用Nodes获取HTML标记之外的特定文本

来自分类Dev

如何使用jsoup提取html标记之外的文本?

来自分类Dev

React,HTML和JavaScript:错误:超出最大更新深度

来自分类Dev

遍历HTML DOM并获得深度

来自分类Dev

JSoup检查是否存在<HTML>,<HEAD>和<BODY>标记

来自分类Dev

Jsoup选择包含HTML标记的文本

来自分类Dev

来自XML的JSoup Strip html标记

来自分类Dev

HTML页面深处的Jsoup CSS标记

来自分类Dev

Jsoup选择包含HTML标记的文本

来自分类Dev

无法使用Jsoup获取DOM视图html页面

来自分类Dev

如何使用Java和Jsoup解析HTML文本和链接

来自分类Dev

如何使用jsoup编辑html标记中的所有文本值

来自分类Dev

如何使用Jsoup解析HTML文档中“标记名”的元素列表?

来自分类Dev

jsoup 将标记误认为是 HTML 标记

来自分类Dev

C:使用nftw指定最大搜索深度

来自分类Dev

使用Jsoup查找未标记的文本

来自分类Dev

如何使用Jsoup遍历XML标记?

来自分类Dev

如何使用Jsoup遍历XML标记?

来自分类Dev

PHP中简单的html纯文本使用“ a”和“ img”标记解析dom

来自分类Dev

HTML DOM操作:用标题标记正确替换标记

来自分类Dev

如何在JSoup Java中仅显示html标记?

来自分类Dev

XQuery和空HTML标记

来自分类Dev

HTML元标记和HTTPS

来自分类Dev

XQuery和空HTML标记

来自分类Dev

如何使用PHP DOM从<body>标记获取所有<a>标记?

来自分类Dev

使用jsoup解析xml(同时避免使用<p>标记)

来自分类Dev

在Haskell中标记树的深度优先顺序