搜索

搜索

使用node.js爬网非结构化html

debugcn 发表于 Dev

12

伊万·佩拉尔塔（Ivan Peralta）

我需要抓取/抓取静态的非结构化HTML，我尝试使用nodejs代码获取内容，而我尝试使用cheerio和xpath失败。

http://static.puertos.es/pred_simplificada/Predolas/Tablas/Cnt/PAS.html

要获取的第一个元素的Xpath是/ html / body / center / center / center / table / tbody / tr [3]，然后我需要获取TR中的每个TD文本。

如果尝试获取tbody节点

      var parser = new parse5.Parser();
      var document = parser.parse(response.toString());
      var xhtml = xmlser.serializeToString(document);
      var doc = new dom().parseFromString(xhtml);
      var select = xpath.useNamespaces({"x": "http://www.w3.org/1999/xhtml"});
      var nodes = select("//x:tbody", doc);

我总是收到一个[]节点。

对于cheerio，我尝试迭代TR元素，但是如上所述，我没有成功。

var $ = cheerio.load(response);
$('tr').each(function(i, e) {
    console.log("Content %j", $(e));
});

伊万·佩拉尔塔（Ivan Peralta）

它表明cheerio在非结构化和没有CSS HTML的情况下无法正常工作。因此，在该教程之后，我尝试了使用YQL的另一种解决方法

select * from html where url='http://static.puertos.es/pred_simplificada/Predolas/Tablas/Cnt/PAS.html' and xpath='//html/body/center/center/table/tbody'

有了yql，我就可以得到我真正需要的东西，因此我将其集成到node-yql中

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-16

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

使用Node.js爬网非结构化html

来自分类Dev

如何使用python从非结构化HTML中创建结构化数组

来自分类Dev

使用Mongoose + Node.js在MongoDB中存储非结构化JavaScript对象

来自分类Dev

使用Java将非结构化数据（文本）转换为结构化格式

来自分类Dev

使用mgo的非结构化内部文档

来自分类Dev

使用sed编辑非结构化文件

来自分类Dev

如何使用Apache Pig构建非结构化数据

来自分类Dev

Node.js和Redis结构化数据

来自分类Dev

使用CSV格式的非结构化GPS数据包创建结构化配置单元表

来自分类Dev

如何使用wget进行爬网以仅下载HTML文件（忽略图片，css，js）

来自分类Dev

使用dictwriter并使用python将非结构化数据写入csv文件

来自分类Dev

Clojure：使用某些方法返回整个项目，而不是返回其中的非结构化值

来自分类Dev

我应该使用哪个函数将非结构化文本文件读入R？

来自分类Dev

使用索引数据计算非结构化文档中的所有唯一单词

来自分类Dev

使用Perl Marpa放弃并跳过非结构化文本吗？

来自分类Dev

如何使用T-SQL在SQL Server中输出非结构化文件？

来自分类Dev

使用Perl Marpa放弃并跳过非结构化文本吗？

来自分类Dev

使用Ramses-API来存储带有Ramses的非结构化数据吗？

来自分类Dev

BeautifulSoup解析非结构化html

来自分类Dev

TypeScript何时使用结构化类型？

来自分类Dev

使用结构化绑定的“反思”

来自分类Dev

使用scrapy爬网

来自分类Dev

使用python和漂亮的汤从HTML获取结构化数据

来自分类Dev

网站如何使用Javascript而不在浏览器中显示任何结构化HTML？

来自分类Dev

使用DIV标签动态构建结构化HTML表时出现问题

来自分类Dev

使用scrapy.js通过启动爬网onclick页面

来自分类Dev

使用 talend BigData 将半结构化数据转换为结构化数据

来自分类Dev

如何使用Kotlin协程爬网递归结构？

来自分类Dev

爬网使用JavaScript的网站

Related 相关文章

文章

热门标签

归档