我需要抓取/抓取静态的非结构化HTML,我尝试使用nodejs代码获取内容,而我尝试使用cheerio和xpath失败。
http://static.puertos.es/pred_simplificada/Predolas/Tablas/Cnt/PAS.html
要获取的第一个元素的Xpath是/ html / body / center / center / center / table / tbody / tr [3],然后我需要获取TR中的每个TD文本。
如果尝试获取tbody节点
var parser = new parse5.Parser();
var document = parser.parse(response.toString());
var xhtml = xmlser.serializeToString(document);
var doc = new dom().parseFromString(xhtml);
var select = xpath.useNamespaces({"x": "http://www.w3.org/1999/xhtml"});
var nodes = select("//x:tbody", doc);
我总是收到一个[]
节点。
对于cheerio,我尝试迭代TR元素,但是如上所述,我没有成功。
var $ = cheerio.load(response);
$('tr').each(function(i, e) {
console.log("Content %j", $(e));
});
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句