Rails v3/Ruby 1.9.2中的字符编码问题

kap*_*pso 7 ruby ruby-on-rails character-encoding

当我从文件中读取内容时,有时会出现此错误" UTF-8中的无效字节序列 ".注意 - 只有在字符串中有一些特殊字符时才会发生这种情况.我试过没有"r:UTF-8"打开文件,但仍然得到相同的错误.

open(file, "r:UTF-8").each_line { |line| puts line.strip(",") } # line.strip generates the error
Run Code Online (Sandbox Code Playgroud)

文件内容:

# encoding: UTF-8
290919,"SE","26","Sk‰l","",59.4500,17.9500,, # this errors out
290956,"CZ","45","HornÌ Bradlo","",49.8000,15.7500,, # this errors out
290958,"NO","02","Svaland","",58.4000,8.0500,, # this works
Run Code Online (Sandbox Code Playgroud)

这是我从外面获得的CSV文件,我试图将其导入我的数据库,它顶部没有"#encoding:UTF-8",但我添加了这个,因为我读到了某处它将解决这个问题,但事实并非如此.:(

环境:

  • Rails v3.0.3
  • ruby 1.9.2p0(2010-08-18修订版29036)[x86_64-darwin10.5.0]

cor*_*ard 16

Ruby有一个外部编码概念和每个文件的内部编码.这允许您在源中使用UTF-8文件,即使文件以更深奥的格式存储.如果您的默认外部编码是UTF-8(如果您使用的是Mac OS X),那么您的所有文件I/O也将采用UTF-8.你可以用它来检查File.open('file').external_encoding.打开文件并传递时正在执行的操作"r:UTF-8"是强制使用默认情况下Ruby正在使用的相同外部编码.

有可能,您的源文档不是UTF-8,而那些非ascii字符没有完全映射到UTF-8(如果是,您将获得正确的字符并且没​​有错误,如果它们映射不正确,你会得到不正确的字符,没有错误).你应该做的是尝试确定源文档的编码,然后让Ruby在读取时对文档进行转码,如下所示:

File.open(file, "r:windows-1251:utf-8").each_line { |line| puts line.strip(",") }
Run Code Online (Sandbox Code Playgroud)

如果您需要帮助确定源代码的编码,请给这个Python库一个旋转.它基于Seamonkey/Mozilla中的自动字符集检测回退(可能仍在Firefox中).


Oli*_*ard 6

如果要更改文件编码,可以使用gem'charlock holmes'

https://github.com/brianmario/charlock_holmes

$require 'charlock_holmes/string'
content = File.read('test2.txt')
if !content.is_utf8?
  detection = CharlockHolmes::EncodingDetector.detect(content)
  utf8_encoded_content = CharlockHolmes::Converter.convert content, detection[:encoding], 'UTF-8'
end
Run Code Online (Sandbox Code Playgroud)

然后,您可以将新内容保存在临时文件中并覆盖原始文件.
希望这有帮助.