针对非ascii的弹性,实际工作的CSV实现?

Par*_*and 13 python unicode encoding

[更新]欣赏答案并输入所有内容,但最受欢迎的是工作代码.如果您可以提供可以读取示例文件的代码,那么您就是王(或女王).

[更新2]感谢您的出色答案和讨论.我需要做的就是读取它们,解析它们,并将它们的一部分保存在Django模型实例中.我相信这意味着将它们从原生编码转换为unicode,因此Django可以处理它们,对吧?

关于非ascii python CSV读取的主题,Stackoverflow上有几个 问题,但是那里和python文档中显示的解决方案不适用于我正在尝试的输入文件.

解决方案的要点似乎是编码('utf-8')CSV读取器的输入和unicode(item,'utf-8')读取器的输出.但是,这会遇到UnicodeDecodeError问题(参见上面的问题):

UnicodeDecodeError: 'utf8' codec can't decode byte 0xa3 in position 8: unexpected
Run Code Online (Sandbox Code Playgroud)

输入文件不一定是utf8; 它可以是ISO-8859-1,cp1251,或其他任何东西.

那么,问题是:在Python中读取CSV文件的弹性,交叉编码能力是什么?

问题的根源似乎是CSV模块是C扩展; 有一个纯python CSV阅读模块?

如果没有,有没有办法可靠地检测输入文件的编码,以便可以处理它?

基本上我正在寻找一种防弹方式来读取(并希望写入)任何编码的CSV文件.

这里有两个示例文件:欧洲,俄罗斯.

这是推荐的解决方案失败:

Python 2.6.4 (r264:75821M, Oct 27 2009, 19:48:32)
[GCC 4.0.1 (Apple Inc. build 5493)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import csv
>>> def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs):
...     # csv.py doesn't do Unicode; encode temporarily as UTF-8:
...     csv_reader = csv.reader(utf_8_encoder(unicode_csv_data),
...                             dialect=dialect, **kwargs)
...     for row in csv_reader:
...         # decode UTF-8 back to Unicode, cell by cell:
...         yield [unicode(cell, 'utf-8') for cell in row]
...
>>> def utf_8_encoder(unicode_csv_data):
...     for line in unicode_csv_data:
...         yield line.encode('utf-8')
...
>>> r = unicode_csv_reader(file('sample-euro.csv').read().split('\n'))
>>> line = r.next()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "<stdin>", line 5, in unicode_csv_reader
  File "<stdin>", line 3, in utf_8_encoder
UnicodeDecodeError: 'ascii' codec can't decode byte 0xf8 in position 14: ordinal not in range(128)
>>> r = unicode_csv_reader(file('sample-russian.csv').read().split('\n'))
>>> line = r.next()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "<stdin>", line 5, in unicode_csv_reader
  File "<stdin>", line 3, in utf_8_encoder
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 28: ordinal not in range(128)
Run Code Online (Sandbox Code Playgroud)

Joh*_*hin 16

您正在尝试将解决方案应用于其他问题.请注意:

def utf_8_encoder(unicode_csv_data)

你喂它的str对象.

读取非ASCII CSV文件的问题是您不知道编码,并且您不知道分隔符.如果您确实知道编码(并且它是基于ASCII的编码(例如cp125x,任何东亚编码,UTF-8,而不是 UTF-16,而不是 UTF-32))和分隔符,这将起作用:

for row in csv.reader("foo.csv", delimiter=known_delimiter):
   row = [item.decode(encoding) for item in row]
Run Code Online (Sandbox Code Playgroud)

您的sample_euro.csv看起来像带有逗号分隔符的cp1252.俄语的一个看起来像带有分号分隔符的cp1251.顺便说一下,从内容来看,您还需要确定使用的日期格式以及货币也可能 - 俄罗斯示例的金额后跟空格和西里尔语"卢布"的缩写.

请仔细注意:拒绝所有说服您拥有ISO-8859-1编码文件的尝试.它们以cp1252编码.

更新以回应评论"""如果我理解你所说的我必须知道编码才能使其工作?在一般情况下我不会知道编码并基于其他答案猜测编码是非常的很难,所以我运气不好?""

您必须知道任何文件读取练习的编码才能正常工作.

在任何大小的文件中任何编码都能正确地猜测编码并不是很困难 - 这是不可能的.但是,将范围限制为以用户的语言环境的默认编码保存在Excel或Open Office之外的csv文件,且大小合理,这不是一项大任务.我建议尝试一下chardet ; 它猜测windows-1252你的欧元文件和windows-1251你的俄罗斯文件 - 鉴于它们的小尺寸,这是一个了不起的成就.

更新2以响应""" 欢迎工作代码 """

工作代码(Python 2.x):

from chardet.universaldetector import UniversalDetector
chardet_detector = UniversalDetector()

def charset_detect(f, chunk_size=4096):
    global chardet_detector
    chardet_detector.reset()
    while 1:
        chunk = f.read(chunk_size)
        if not chunk: break
        chardet_detector.feed(chunk)
        if chardet_detector.done: break
    chardet_detector.close()
    return chardet_detector.result

# Exercise for the reader: replace the above with a class

import csv    
import sys
from pprint import pprint

pathname = sys.argv[1]
delim = sys.argv[2] # allegedly known
print "delim=%r pathname=%r" % (delim, pathname)

with open(pathname, 'rb') as f:
    cd_result = charset_detect(f)
    encoding = cd_result['encoding']
    confidence = cd_result['confidence']
    print "chardet: encoding=%s confidence=%.3f" % (encoding, confidence)
    # insert actions contingent on encoding and confidence here
    f.seek(0)
    csv_reader = csv.reader(f, delimiter=delim)
    for bytes_row in csv_reader:
        unicode_row = [x.decode(encoding) for x in bytes_row]
        pprint(unicode_row)
Run Code Online (Sandbox Code Playgroud)

输出1:

delim=',' pathname='sample-euro.csv'
chardet: encoding=windows-1252 confidence=0.500
[u'31-01-11',
 u'Overf\xf8rsel utland',
 u'UTLBET; ID 9710032001647082',
 u'1990.00',
 u'']
[u'31-01-11',
 u'Overf\xf8ring',
 u'OVERF\xd8RING MELLOM EGNE KONTI',
 u'5750.00',
 u';']
Run Code Online (Sandbox Code Playgroud)

输出2:

delim=';' pathname='sample-russian.csv'
chardet: encoding=windows-1251 confidence=0.602
[u'-',
 u'04.02.2011 23:20',
 u'300,00\xa0\u0440\u0443\u0431.',
 u'',
 u'\u041c\u0422\u0421',
 u'']
[u'-',
 u'04.02.2011 23:15',
 u'450,00\xa0\u0440\u0443\u0431.',
 u'',
 u'\u041e\u043f\u043b\u0430\u0442\u0430 Interzet',
 u'']
[u'-',
 u'13.01.2011 02:05',
 u'100,00\xa0\u0440\u0443\u0431.',
 u'',
 u'\u041c\u0422\u0421 kolombina',
 u'']
Run Code Online (Sandbox Code Playgroud)

更新3这些文件的来源是什么?如果它们从Excel或OpenOffice Calc或Gnumeric"保存为CSV",则可以将它们保存为"Excel 97-2003 Workbook(*.xls)"并使用xlrd来读取它们,从而避免整个编码剧.这也可以省去必须检查每个csv文件以确定分隔符(逗号与分号),日期格式(31-01-11 vs 04.02.2011)和"小数点"(5750.00 vs 450,00)的麻烦 - - 所有这些差异可能是通过保存为CSV而创建的.[Dis] claimer:我是作者xlrd.