使用node.js爬网非结构化html

伊万·佩拉尔塔(Ivan Peralta)

我需要抓取/抓取静态的非结构化HTML,我尝试使用nodejs代码获取内容,而我尝试使用cheerio和xpath失败。

http://static.puertos.es/pred_simplificada/Predolas/Tablas/Cnt/PAS.html

要获取的第一个元素的Xpath是/ html / body / center / center / center / table / tbody / tr [3],然后我需要获取TR中的每个TD文本。

如果尝试获取tbody节点

      var parser = new parse5.Parser();
      var document = parser.parse(response.toString());
      var xhtml = xmlser.serializeToString(document);
      var doc = new dom().parseFromString(xhtml);
      var select = xpath.useNamespaces({"x": "http://www.w3.org/1999/xhtml"});
      var nodes = select("//x:tbody", doc);

我总是收到一个[]节点。

对于cheerio,我尝试迭代TR元素,但是如上所述,我没有成功。

var $ = cheerio.load(response);
$('tr').each(function(i, e) {
    console.log("Content %j", $(e));
});
伊万·佩拉尔塔(Ivan Peralta)

它表明cheerio在非结构化和没有CSS HTML的情况下无法正常工作。因此,在该教程之后,我尝试了使用YQL的另一种解决方法

select * from html where url='http://static.puertos.es/pred_simplificada/Predolas/Tablas/Cnt/PAS.html' and xpath='//html/body/center/center/table/tbody'

有了yql,我就可以得到我真正需要的东西,因此我将其集成到node-yql中

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用Node.js爬网非结构化html

来自分类Dev

如何使用python从非结构化HTML中创建结构化数组

来自分类Dev

使用Mongoose + Node.js在MongoDB中存储非结构化JavaScript对象

来自分类Dev

使用Java将非结构化数据(文本)转换为结构化格式

来自分类Dev

使用mgo的非结构化内部文档

来自分类Dev

使用sed编辑非结构化文件

来自分类Dev

如何使用Apache Pig构建非结构化数据

来自分类Dev

Node.js和Redis结构化数据

来自分类Dev

使用CSV格式的非结构化GPS数据包创建结构化配置单元表

来自分类Dev

如何使用wget进行爬网以仅下载HTML文件(忽略图片,css,js)

来自分类Dev

使用dictwriter并使用python将非结构化数据写入csv文件

来自分类Dev

Clojure:使用某些方法返回整个项目,而不是返回其中的非结构化值

来自分类Dev

我应该使用哪个函数将非结构化文本文件读入R?

来自分类Dev

使用索引数据计算非结构化文档中的所有唯一单词

来自分类Dev

使用Perl Marpa放弃并跳过非结构化文本吗?

来自分类Dev

如何使用T-SQL在SQL Server中输出非结构化文件?

来自分类Dev

使用Perl Marpa放弃并跳过非结构化文本吗?

来自分类Dev

使用Ramses-API来存储带有Ramses的非结构化数据吗?

来自分类Dev

BeautifulSoup解析非结构化html

来自分类Dev

TypeScript何时使用结构化类型?

来自分类Dev

使用结构化绑定的“反思”

来自分类Dev

使用scrapy爬网

来自分类Dev

使用python和漂亮的汤从HTML获取结构化数据

来自分类Dev

网站如何使用Javascript而不在浏览器中显示任何结构化HTML?

来自分类Dev

使用DIV标签动态构建结构化HTML表时出现问题

来自分类Dev

使用scrapy.js通过启动爬网onclick页面

来自分类Dev

使用 talend BigData 将半结构化数据转换为结构化数据

来自分类Dev

如何使用Kotlin协程爬网递归结构?

来自分类Dev

爬网使用JavaScript的网站

Related 相关文章

  1. 1

    使用Node.js爬网非结构化html

  2. 2

    如何使用python从非结构化HTML中创建结构化数组

  3. 3

    使用Mongoose + Node.js在MongoDB中存储非结构化JavaScript对象

  4. 4

    使用Java将非结构化数据(文本)转换为结构化格式

  5. 5

    使用mgo的非结构化内部文档

  6. 6

    使用sed编辑非结构化文件

  7. 7

    如何使用Apache Pig构建非结构化数据

  8. 8

    Node.js和Redis结构化数据

  9. 9

    使用CSV格式的非结构化GPS数据包创建结构化配置单元表

  10. 10

    如何使用wget进行爬网以仅下载HTML文件(忽略图片,css,js)

  11. 11

    使用dictwriter并使用python将非结构化数据写入csv文件

  12. 12

    Clojure:使用某些方法返回整个项目,而不是返回其中的非结构化值

  13. 13

    我应该使用哪个函数将非结构化文本文件读入R?

  14. 14

    使用索引数据计算非结构化文档中的所有唯一单词

  15. 15

    使用Perl Marpa放弃并跳过非结构化文本吗?

  16. 16

    如何使用T-SQL在SQL Server中输出非结构化文件?

  17. 17

    使用Perl Marpa放弃并跳过非结构化文本吗?

  18. 18

    使用Ramses-API来存储带有Ramses的非结构化数据吗?

  19. 19

    BeautifulSoup解析非结构化html

  20. 20

    TypeScript何时使用结构化类型?

  21. 21

    使用结构化绑定的“反思”

  22. 22

    使用scrapy爬网

  23. 23

    使用python和漂亮的汤从HTML获取结构化数据

  24. 24

    网站如何使用Javascript而不在浏览器中显示任何结构化HTML?

  25. 25

    使用DIV标签动态构建结构化HTML表时出现问题

  26. 26

    使用scrapy.js通过启动爬网onclick页面

  27. 27

    使用 talend BigData 将半结构化数据转换为结构化数据

  28. 28

    如何使用Kotlin协程爬网递归结构?

  29. 29

    爬网使用JavaScript的网站

热门标签

归档