Ruby,Nokogiri:如何在整个nokogiri解析,erb模板和HTML文件编码过程中确保UTF8

小打印机

我终于设法解析了网站的一部分:

get '/' do
  url = '<website>'
  data = Nokogiri::HTML(open(url))
  @rows = data.css("td[valign=top] table tr") 
  erb :muster
end

现在,我尝试在我的视图中提取特定的行。因此,我输入了我的HTML代码:

<%= @rows[2] %> 

它实际上返回了代码,但是UTF8存在问题:

<td class="class_name">&nbsp;</td>

相反,它说

<td class="class_name">�</td>

如何在nokogiri解析,erb和HTML生成期间确保UTF8?

Rainkinz

请参阅:http : //www.nokogiri.org/tutorials/parsing_an_html_xml_document.html#encoding

在您的情况下,该文档似乎声明它是使用iso8859编码的:

<meta http-equiv="Content-Type" content="text/html;charset=iso-8859-1">

您可以执行以下操作来强制Nokogiri将流视为UTF-8:

data = Nokogiri::HTML(open(url), nil, Encoding::UTF_8.to_s)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

vb.net如何在utf8中制作带有html或文本文件的编码

来自分类Dev

Ruby和Nokogiri解析表?

来自分类Dev

Ruby和Nokogiri解析表?

来自分类Dev

如何在PHP中解析charset utf8?

来自分类Dev

使用Nokogiri解析HTML文件中的多个列表

来自分类Dev

如何在c ++ STL文件读取过程中可移植地捕获和处理UTF“ EN DASH”弊端?

来自分类Dev

如何从 Ruby 中的 Nokogiri 集合生成不同的 HTML 格式

来自分类Dev

使用Nokogiri解析大型HTML文件

来自分类Dev

用Ruby和Nokogiri刮HTML表

来自分类Dev

用Ruby和Nokogiri刮HTML表

来自分类Dev

将具有UTF8编码的HTML文件从资产加载到TextView中

来自分类Dev

使用<meta charset ='UTF-8>解析html时,Nokogiri引发错误

来自分类Dev

使用Nokogiri解析HTML

来自分类Dev

用Nokogiri解析HTML

来自分类Dev

如何在Mechanize和Nokogiri中单击链接?

来自分类Dev

Ruby / Nokogiri / Mechanize:如何下载XLS文件?

来自分类Dev

终端中的退格和UTF8编码

来自分类Dev

如何获取utf8编码的html内容

来自分类Dev

如何将utf8编码的html嵌入元素

来自分类Dev

在sqlplus中如何更改或将特定文件编码转换为utf8

来自分类Dev

如何在用UTF8编码的C中打印unicode字符?

来自分类Dev

压缩和utf8编码

来自分类Dev

压缩和utf8编码

来自分类Dev

如何使用Ruby和Nokogiri将XML节点解析为CSV

来自分类Dev

如何在使用Javascript的浏览器中解析非UTF8 XML?

来自分类Dev

使用 xpath 解析 HTML 节点到 Ruby/Nokogiri

来自分类Dev

如何在解析过程中减少内存量

来自分类Dev

如何让R维护utf8编码?

来自分类Dev

在Python 3.5中编码utf-8和utf8之间的区别