Pandas:使用 UCS-2 LE 编码读取 csv 文件

Mic*_*hal 4 python csv pandas

我想导入由 3rd 方应用程序使用 UCS-2 LE 编码生成的 10K csv 文件。我不想使用 csv 阅读器,例如Python UTF-16,因为文件太多。

您可以在下面找到我的代码,我正在尝试仅阅读其中的一个。我正在使用 Python 3.4 和 Pandas 0.18.1

要下载的示例文件

微量元素:

import pandas as pd

df = pd.read_csv('1.csv', 
             encoding="mbcs",
             skip_blank_lines=True,
             error_bad_lines=False,
             decimal=',',
             sep='\s+')
Run Code Online (Sandbox Code Playgroud)

我收到一个错误:

CParserError:标记数据时出错。C 错误:从第 17 行开始的字符串内有 EOF

Fab*_*nna 5

实际上我不知道你的预期输出如何,但我正在使用以下方式读取你的文件:

\n\n
df = pd.read_csv(\'1.csv\', encoding="utf-16", skip_blank_lines=True, error_bad_lines=False, decimal=\',\', sep=\'\\s+\', skiprows=5)\n
Run Code Online (Sandbox Code Playgroud)\n\n

获得类似的东西:

\n\n
In [17]: df.head()\nOut[17]: \n  Oznaczenie techniczne  Warto\xc5\x9b\xc4\x87 Jednostka                Opis obiektu  \\\n0  PPHS:LPlt\'Ahu\'CumEg1    488.0        GJ  Energia skumulowana ch\xc5\x82odu   \n1  PPHS:LPlt\'Ahu\'CumVlm  57263.0        m3        Obj\xc4\x99to\xc5\x9b\xc4\x87 skumulowana   \n2      PPHS:LPlt\'Ahu\'Fl     31.6      m3/h                    Przep\xc5\x82yw   \n3     PPHS:LPlt\'Ahu\'Pwr    111.0        kW                         Moc   \n4     PPHS:LPlt\'Ahu\'TFl     12.7        \xc2\xb0C       Temperatura zasilania   \n\n  Parameter   Value Timestamp  \n0     PrVal  2016-07-27 19:55  \n1     PrVal  2016-07-27 19:55  \n2     PrVal  2016-07-27 19:55  \n3     PrVal  2016-07-27 19:55  \n4     PrVal  2016-07-27 19:55  \n
Run Code Online (Sandbox Code Playgroud)\n\n

基本上我会跳过前 5 行(与文件报告相关,这实际上会弄乱文件格式)。希望有帮助。

\n