从使用Jsoup检索的文本中删除制表符

debugcn 发表于 Dev

cuoka

我正在使用Jsoup解析HTML文件。获取h1的文本时，它还会检索表格和换行符。

“名称”是我要从此处检索的内容：

<h1>\n\t\t\tNAME\n\t\t</h1>

我正在尝试通过以下方式摆脱这些角色：

String name = document.select( "div header > h1" ).first().ownText().replaceAll( "[^a-zA-Z]+", "" ).trim().toUpperCase();

但这是结果：

NTTTTNAMETNTTT

如何在没有所有列表和换行符的情况下获取文本？

卢克施

似乎html确实包含字符串"\t"和"\n"字面值。在这种情况下，您可能应该在解析之前清除源。这样的事情应该做：

String html = Jsoup.connect(URL).userAgent("Mozilla/5.0").execute().body();
html = html.replaceAll("\\\\[nt]", "");
Document doc = Jsoup.parse(html);

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-17

我来说两句

0条评论

登录后参与评论

来自分类Dev

从使用Jsoup检索的文本中删除制表符

来自分类Dev

从Javascript文本框中删除制表符空间

来自分类Dev

你如何从连续的行中检索文本并在 python 中制作制表符分隔的列？

来自分类Dev

使用正则表达式删除空格（制表符）之前的文本

来自分类Dev

跳过自动完成的括号，逗号等，并在制表符文本中使用制表符

来自分类Dev

从MySQL表中删除制表符，换行符等

来自分类Dev

使用Powershell编辑制表符分隔的文本文件中的列

来自分类Dev

使用awk将制表符分隔的文本文件中的两列相乘

来自分类Dev

使用Powershell替换制表符分隔文件的第一行中的文本

来自分类Dev

如何使用VBA从Word文档中删除水平制表符

来自分类Dev

从Excel中的特定列获取制表符分隔的文本

来自分类Dev

删除luajson输出中的新行和制表符

来自分类Dev

如何在JTabbedPane中删除“制表符边框”

来自分类Dev

删除C程序中的制表符/空格

来自分类Dev

从制表符分隔的文件中删除缺少值的行

来自分类Dev

从zsh制表符补全中删除颜色

来自分类Dev

从数组中删除空格、制表符和新行

来自分类Dev

如何从制表符分隔的文本文件中的列的字符串值的末尾删除反斜杠？

来自分类Dev

使用sed在HTML代码中添加/删除一些制表符和换行符

来自分类Dev

使用Python读取Hadoop中制表符分隔的文件

来自分类Dev

从POST解析制表符分隔的文本

来自分类Dev

删除ctrl字符（制表符除外）

来自分类Dev

删除空格，但保留制表符

来自分类Dev

vim删除到制表符

来自分类Dev

如何使用Python有效地从txt格式文件中删除制表符

来自分类Dev

TSQL如何删除最后一个制表符空间之后的所有字符或文本

来自分类Dev

文本文件中带制表符的分隔符

来自分类Dev

使用phpexcel逗号或制表符分隔符读取文本文件

来自分类Dev

使用Sed插入带有制表符分隔符的文本行

Related 相关文章

文章