我想导入由 3rd 方应用程序使用 UCS-2 LE 编码生成的 10K csv 文件。我不想使用 csv 阅读器,例如Python UTF-16,因为文件太多。
您可以在下面找到我的代码,我正在尝试仅阅读其中的一个。我正在使用 Python 3.4 和 Pandas 0.18.1
微量元素:
import pandas as pd
df = pd.read_csv('1.csv',
encoding="mbcs",
skip_blank_lines=True,
error_bad_lines=False,
decimal=',',
sep='\s+')
Run Code Online (Sandbox Code Playgroud)
我收到一个错误:
CParserError:标记数据时出错。C 错误:从第 17 行开始的字符串内有 EOF
实际上我不知道你的预期输出如何,但我正在使用以下方式读取你的文件:
\n\ndf = pd.read_csv(\'1.csv\', encoding="utf-16", skip_blank_lines=True, error_bad_lines=False, decimal=\',\', sep=\'\\s+\', skiprows=5)\nRun Code Online (Sandbox Code Playgroud)\n\n获得类似的东西:
\n\nIn [17]: df.head()\nOut[17]: \n Oznaczenie techniczne Warto\xc5\x9b\xc4\x87 Jednostka Opis obiektu \\\n0 PPHS:LPlt\'Ahu\'CumEg1 488.0 GJ Energia skumulowana ch\xc5\x82odu \n1 PPHS:LPlt\'Ahu\'CumVlm 57263.0 m3 Obj\xc4\x99to\xc5\x9b\xc4\x87 skumulowana \n2 PPHS:LPlt\'Ahu\'Fl 31.6 m3/h Przep\xc5\x82yw \n3 PPHS:LPlt\'Ahu\'Pwr 111.0 kW Moc \n4 PPHS:LPlt\'Ahu\'TFl 12.7 \xc2\xb0C Temperatura zasilania \n\n Parameter Value Timestamp \n0 PrVal 2016-07-27 19:55 \n1 PrVal 2016-07-27 19:55 \n2 PrVal 2016-07-27 19:55 \n3 PrVal 2016-07-27 19:55 \n4 PrVal 2016-07-27 19:55 \nRun Code Online (Sandbox Code Playgroud)\n\n基本上我会跳过前 5 行(与文件报告相关,这实际上会弄乱文件格式)。希望有帮助。
\n| 归档时间: |
|
| 查看次数: |
4611 次 |
| 最近记录: |