我试图将网页上所有可读的单词保存到一个文本文档中,同时忽略 html 标记。使用 JSoup 解析网页上的所有单词,我对如何从代码中分离真实单词的唯一猜测是通过元素。
是否可以将 jsoup 文档的多个元素转换为文本文件?
IE:
Elements titles = doc.select("title");
Elements paragraphs = doc.select("p");
Elements links = doc.select("a[href]");
Elements smallText = doc.select("a");
当前将解析保存为文档:
Document doc = Jsoup.connect("https:// (enter a url)").get();
它的简单方法
Document doc = Jsoup.connect("https:// (enter a url)").get();
BufferedWriter writer = null;
try
{
writer = new BufferedWriter( new FileWriter("d://test.txt"));
writer.write(doc.toString());
}
catch ( IOException e)
{
}
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句