我正在使用Jsoup解析HTML文件。获取h1的文本时,它还会检索表格和换行符。
“名称”是我要从此处检索的内容:
<h1>\n\t\t\tNAME\n\t\t</h1>
我正在尝试通过以下方式摆脱这些角色:
String name = document.select( "div header > h1" ).first().ownText().replaceAll( "[^a-zA-Z]+", "" ).trim().toUpperCase();
但这是结果:
NTTTTNAMETNTTT
如何在没有所有列表和换行符的情况下获取文本?
似乎html确实包含字符串"\t"
和"\n"
字面值。在这种情况下,您可能应该在解析之前清除源。这样的事情应该做:
String html = Jsoup.connect(URL).userAgent("Mozilla/5.0").execute().body();
html = html.replaceAll("\\\\[nt]", "");
Document doc = Jsoup.parse(html);
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句