[更新]欣赏答案并输入所有内容,但最受欢迎的是工作代码.如果您可以提供可以读取示例文件的代码,那么您就是王(或女王).
[更新2]感谢您的出色答案和讨论.我需要做的就是读取它们,解析它们,并将它们的一部分保存在Django模型实例中.我相信这意味着将它们从原生编码转换为unicode,因此Django可以处理它们,对吧?
关于非ascii python CSV读取的主题,Stackoverflow上有几个 问题,但是那里和python文档中显示的解决方案不适用于我正在尝试的输入文件.
解决方案的要点似乎是编码('utf-8')CSV读取器的输入和unicode(item,'utf-8')读取器的输出.但是,这会遇到UnicodeDecodeError问题(参见上面的问题):
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa3 in position 8: unexpected
Run Code Online (Sandbox Code Playgroud)
输入文件不一定是utf8; 它可以是ISO-8859-1,cp1251,或其他任何东西.
那么,问题是:在Python中读取CSV文件的弹性,交叉编码能力是什么?
问题的根源似乎是CSV模块是C扩展; 有一个纯python CSV阅读模块?
如果没有,有没有办法可靠地检测输入文件的编码,以便可以处理它?
基本上我正在寻找一种防弹方式来读取(并希望写入)任何编码的CSV文件.
这是推荐的解决方案失败:
Python 2.6.4 (r264:75821M, Oct 27 2009, 19:48:32)
[GCC 4.0.1 (Apple Inc. build 5493)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import csv
>>> def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs):
... # csv.py doesn't do Unicode; encode temporarily as UTF-8:
... csv_reader …Run Code Online (Sandbox Code Playgroud)