我在Ruby(1.9)中编写了一个爬虫程序,它从很多随机站点中消耗了大量的HTML.
当试图提取链接时,我决定使用.scan(/href="(.*?)"/i)而不是nokogiri/hpricot(主要加速).问题是我现在收到很多" invalid byte sequence in UTF-8"错误.
根据我的理解,该net/http库没有任何特定于编码的选项,并且所引入的内容基本上没有正确标记.
实际使用传入数据的最佳方法是什么?我尝试.encode使用替换和无效选项集,但到目前为止没有成功...
我将数据导出到rails中的CSV文件和我的某些字段中,当我在Excel中打开时,我遇到了类似的字符编码问题:
didn’t
Run Code Online (Sandbox Code Playgroud)
我从一个例子中借用了这段代码,我假设编码已关闭.知道应该是什么吗?
send_data csv_data,
:type => 'text/csv; charset=iso-8859-1; header=present',
:disposition => "attachment; filename=#{filename}.csv"
Run Code Online (Sandbox Code Playgroud)