如何解析HTML从H1 ... H6获取文本?

往上走

我想解析一个HTML页面,并且只想将所有文本放入<h1>..<h6>标记内。

我的实际脚本是:

doc = Nokogiri::HTML(open(s3_page_url).read)
doc.css('h1, h2').each do |link|
  puts link.text
end

这是我的测试代码:

html = '<html><head><title><h1>foo</h1><h2>bar</h2></title><body><p>bar</p></body></html>'
doc = Nokogiri::HTML(html)
doc.css('h1').each do |link|
  puts link.text
end

这是提示:

foo

问题是我想得到foo bar

奥雅纳·拉希特(Arup Rakshit)

首先#map用于获取文本数组,然后使用您选择的delimiter#join构造一个字符串

#!/usr/bin/env ruby

require 'nokogiri'

html = <<-STRING
<html><head><title><h1>foo</h1><h2>bar</h2></title><body><p>bar</p></body></html>
STRING

doc = Nokogiri::HTML::DocumentFragment.parse(html)


doc.css('h1, h2').map(&:text).join(" ") # => "foo bar"

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

css-位置img在h6下,不受h6大小影响

来自分类Dev

如何通过单击html按钮获取h1的文本值?

来自分类Dev

HTML如何使H1,H2等作为链接?

来自分类Dev

PHP简单HTML DOM解析器:如何获取包含<h1>标记的父div的内容?

来自分类Dev

PHP简单HTML DOM解析器:如何获取包含<h1>标记的父div的内容?

来自分类Dev

是否有用于标题(h1,h2,h3,h4,h5或h6)的jQuery选择器?

来自分类Dev

Android:htm.fromhtm()从H1,H2,H3,H4,H5,H6标签下删除空白行

来自分类Dev

如何使用em而不是px将<h1>到<h6>更改为与<p>相同的填充,同时使它们保持相同?

来自分类Dev

如何在Python中的<h1> </ h1>之间提取文本?

来自分类Dev

如何使用Java脚本替换/更改<h1> </ h1>中的标题文本?

来自分类Dev

为什么CSS选择器“ h1,h2,h3,h4,h5,h6 + p”不起作用,还有什么替代方法?

来自分类Dev

如何使用剧作家获取h1标题的文本?

来自分类Dev

如何从 Selenium + Cucumber + Ruby 中的 H1 标签中获取文本

来自分类Dev

HTML 垂直居中 h1

来自分类Dev

Jquery获取h1内的html内容

来自分类Dev

[h6 aria-level="7"] 是创建 [h7] 元素的可靠方法吗?

来自分类Dev

我如何使h1在体内居中

来自分类Dev

我如何使h1在体内居中

来自分类Dev

如何减少 H1 的背景?

来自分类Dev

如何选择H1标签?

来自分类Dev

如何清除 h1 标签的innerHTML

来自分类Dev

如何在PHP中使用DOM解析器为h1,h2等创建<div>?

来自分类Dev

python urllib2和ntlm-在响应html中获取“ <h1>对象已移动</ h1>”

来自分类Dev

python urllib2和ntlm-在响应html中获取“ <h1>对象已移动</ h1>”

来自分类Dev

HTML/CSS 如何将 div 与 4 个文本框对齐,包括 h1、p 和 pictrues

来自分类Dev

用jquery更改h1的文本,

来自分类Dev

如何使用 ng-bind-html 但禁用标签 <h1>, <b>... AngularJS

来自分类Dev

如何抓取<h1> <h2>并保存到VBScript中的文本文件

来自分类Dev

如何使 h1、h2 看起来像普通的段落文本

Related 相关文章

  1. 1

    css-位置img在h6下,不受h6大小影响

  2. 2

    如何通过单击html按钮获取h1的文本值?

  3. 3

    HTML如何使H1,H2等作为链接?

  4. 4

    PHP简单HTML DOM解析器:如何获取包含<h1>标记的父div的内容?

  5. 5

    PHP简单HTML DOM解析器:如何获取包含<h1>标记的父div的内容?

  6. 6

    是否有用于标题(h1,h2,h3,h4,h5或h6)的jQuery选择器?

  7. 7

    Android:htm.fromhtm()从H1,H2,H3,H4,H5,H6标签下删除空白行

  8. 8

    如何使用em而不是px将<h1>到<h6>更改为与<p>相同的填充,同时使它们保持相同?

  9. 9

    如何在Python中的<h1> </ h1>之间提取文本?

  10. 10

    如何使用Java脚本替换/更改<h1> </ h1>中的标题文本?

  11. 11

    为什么CSS选择器“ h1,h2,h3,h4,h5,h6 + p”不起作用,还有什么替代方法?

  12. 12

    如何使用剧作家获取h1标题的文本?

  13. 13

    如何从 Selenium + Cucumber + Ruby 中的 H1 标签中获取文本

  14. 14

    HTML 垂直居中 h1

  15. 15

    Jquery获取h1内的html内容

  16. 16

    [h6 aria-level="7"] 是创建 [h7] 元素的可靠方法吗?

  17. 17

    我如何使h1在体内居中

  18. 18

    我如何使h1在体内居中

  19. 19

    如何减少 H1 的背景?

  20. 20

    如何选择H1标签?

  21. 21

    如何清除 h1 标签的innerHTML

  22. 22

    如何在PHP中使用DOM解析器为h1,h2等创建<div>?

  23. 23

    python urllib2和ntlm-在响应html中获取“ <h1>对象已移动</ h1>”

  24. 24

    python urllib2和ntlm-在响应html中获取“ <h1>对象已移动</ h1>”

  25. 25

    HTML/CSS 如何将 div 与 4 个文本框对齐,包括 h1、p 和 pictrues

  26. 26

    用jquery更改h1的文本,

  27. 27

    如何使用 ng-bind-html 但禁用标签 <h1>, <b>... AngularJS

  28. 28

    如何抓取<h1> <h2>并保存到VBScript中的文本文件

  29. 29

    如何使 h1、h2 看起来像普通的段落文本

热门标签

归档