相关疑难解决方法(0)

针对非ascii的弹性,实际工作的CSV实现？

[更新]欣赏答案并输入所有内容,但最受欢迎的是工作代码.如果您可以提供可以读取示例文件的代码,那么您就是王(或女王).

[更新2]感谢您的出色答案和讨论.我需要做的就是读取它们,解析它们,并将它们的一部分保存在Django模型实例中.我相信这意味着将它们从原生编码转换为unicode,因此Django可以处理它们,对吧？

关于非ascii python CSV读取的主题,Stackoverflow上有几个问题,但是那里和python文档中显示的解决方案不适用于我正在尝试的输入文件.

解决方案的要点似乎是编码('utf-8')CSV读取器的输入和unicode(item,'utf-8')读取器的输出.但是,这会遇到UnicodeDecodeError问题(参见上面的问题):

UnicodeDecodeError: 'utf8' codec can't decode byte 0xa3 in position 8: unexpected

Run Code Online (Sandbox Code Playgroud)

输入文件不一定是utf8; 它可以是ISO-8859-1,cp1251,或其他任何东西.

那么,问题是:在Python中读取CSV文件的弹性,交叉编码能力是什么？

问题的根源似乎是CSV模块是C扩展; 有一个纯python CSV阅读模块？

如果没有,有没有办法可靠地检测输入文件的编码,以便可以处理它？

基本上我正在寻找一种防弹方式来读取(并希望写入)任何编码的CSV文件.

这里有两个示例文件:欧洲,俄罗斯.

这是推荐的解决方案失败:

Python 2.6.4 (r264:75821M, Oct 27 2009, 19:48:32)
[GCC 4.0.1 (Apple Inc. build 5493)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import csv
>>> def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs):
...     # csv.py doesn't do Unicode; encode temporarily as UTF-8:
...     csv_reader …

Run Code Online (Sandbox Code Playgroud)

python unicode encoding

Par*_*and

2017 05-23

13
推荐指数

1
解决办法

6535
查看次数