阅读时Ruby CSV UTF8编码错误

Vig*_*esh 9 ruby csv

这就是我在做的事情:

csv = CSV.open(file_name, "r")
Run Code Online (Sandbox Code Playgroud)

我用这个来测试:

line = csv.shift
while not line.nil?
  puts line
  line = csv.shift
end
Run Code Online (Sandbox Code Playgroud)

我碰到了这个:

ArgumentError: invalid byte sequence in UTF-8
Run Code Online (Sandbox Code Playgroud)

我在这里读到答案,这就是我的尝试

csv = CSV.open(file_name, "r", encoding: "windows-1251:utf-8")
Run Code Online (Sandbox Code Playgroud)

我遇到了以下错误:

Encoding::UndefinedConversionError: "\x98" to UTF-8 in conversion from Windows-1251 to UTF-8
Run Code Online (Sandbox Code Playgroud)

然后我遇到了一个Ruby gem - charlock_holmes.我想我会尝试使用它来查找源编码.

CharlockHolmes::EncodingDetector.detect(File.read(file_name))
=> {:type=>:text, :encoding=>"windows-1252", :confidence=>37, :language=>"fr"}
Run Code Online (Sandbox Code Playgroud)

所以我这样做了:

csv = CSV.open(file_name, "r", encoding: "windows-1252:utf-8")
Run Code Online (Sandbox Code Playgroud)

仍然有这个:

Encoding::UndefinedConversionError: "\x8F" to UTF-8 in conversion from Windows-1252 to UTF-8
Run Code Online (Sandbox Code Playgroud)

chr*_*mod 4

您似乎在检测文件的有效编码时遇到问题。CharlockHolmes为您提供了有用的提示,:confidence=>37该提示仅意味着检测到的编码可能不正确。

\n\n

根据错误消息和test_transcode.rbhttps://github.com/MacRuby/MacRuby/blob/master/test-mri/test/ruby/test_transcode.rb找到了通过两条错误消息的编码。借助String#encode它很容易测试:

\n\n
"\\x8F\\x98".encode("UTF-8","cp1256") # => "\xda\x88\xda\xa9"\n
Run Code Online (Sandbox Code Playgroud)\n\n

您的问题看起来与文件严格相关,而不是与 ruby​​ 相关。

\n\n

如果我们不确定要使用哪种编码并且可以同意释放一些字符,我们可以使用:invalid:undefparams String#encode,在这种情况下:

\n\n
"\\x8F\\x98".encode("UTF-8", "CP1250",:invalid => :replace, :undef => :replace, :replace => "?") # => "\xc5\xb9?"\n
Run Code Online (Sandbox Code Playgroud)\n\n

另一种方法是使用Iconv *//IGNORE目标编码选项:

\n\n
Iconv.iconv("UTF-8//IGNORE","CP1250", "\\x8F\\x98")\n
Run Code Online (Sandbox Code Playgroud)\n\n

作为CharlockHolmes的源编码建议应该相当不错。

\n\n

附言。String.encode在 ruby​​ 1.9 中引入。使用 ruby​​ 1.8 你可以使用Iconv

\n