相关疑难解决方法(0)

ruby 1.9:UTF-8中的无效字节序列

我在Ruby(1.9)中编写了一个爬虫程序,它从很多随机站点中消耗了大量的HTML.
当试图提取链接时,我决定使用.scan(/href="(.*?)"/i)而不是nokogiri/hpricot(主要加速).问题是我现在收到很多" invalid byte sequence in UTF-8"错误.
根据我的理解,该net/http库没有任何特定于编码的选项,并且所引入的内容基本上没有正确标记.
实际使用传入数据的最佳方法是什么？我尝试.encode使用替换和无效选项集,但到目前为止没有成功...

ruby encoding utf-8

Mar*_*ger

2013 07-02

109
推荐指数

5
解决办法

12万
查看次数

Ruby是否提供了使用指定编码执行File.read()的方法？

在ruby 1.9.x中,我们可以指定编码File.open('filename','r:iso-8859-1').如果我直接将许多短文件读入字符串,我通常更喜欢使用单行File.read().有没有办法可以直接指定编码,或者我是否必须采用以下方法之一？

str = File.read('filename')
str.force_encoding('iso-8859-1')

Run Code Online (Sandbox Code Playgroud)

要么

f = File.open('filename', 'r:iso-8859-1')
s = ''
while (line = f.gets)
    s += line
end
f.close

Run Code Online (Sandbox Code Playgroud)

ruby encoding file

Cht*_*ect

2013 11-14

34
推荐指数

1
解决办法

2万
查看次数

标签统计

encoding ×2

ruby ×2

file ×1

utf-8 ×1

ruby 1.9:UTF-8中的无效字节序列

Ruby是否提供了使用指定编码执行File.read()的方法？

标签 统计

标签统计