查看答案,它不是以 CP1252 编码,而是以 UTF-16 编码。解决方案代码是:
\nimport pandas as pd\n\ndf = pd.read_csv(\'my_file.csv\', sep=\'\\t\', header=1, encoding=\'utf-16\')\nRun Code Online (Sandbox Code Playgroud)\n还适用于encoding=\'utf-16-le\'
更新:前 3 行的输出(以字节为单位):
\nIn : import itertools \n...: print(list(itertools.islice(open(\'file_T.csv\', \'rb\'), 3)))\n\nOut : [b\'\\xff\\xfe"\\x00D\\x00u\\x00 \\x00m\\x00e\\x00r\\x00c\\x00r\\x00e\\x00d\\x00i\\x00 \\x000\\x005\\x00 \\x00j\\x00u\\x00i\\x00n\\x00 \\x002\\x000\\x001\\x009\\x00 \\x00a\\x00u\\x00 \\x00m\\x00e\\x00r\\x00c\\x00r\\x00e\\x00d\\x00i\\x00 \\x000\\x005\\x00 \\x00j\\x00u\\x00i\\x00n\\x00 \\x002\\x000\\x001\\x009\\x00\\n\', b\'\\x00"\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\n\', b\'\\x00C\\x00o\\x00d\\x00e\\x00 \\x00M\\x00C\\x00U\\x00\\t\\x00I\\x00m\\x00m\\x00a\\x00t\\x00r\\x00i\\x00c\\x00u\\x00l\\x00a\\x00t\\x00i\\x00o\\x00n\\x00\\t\\x00D\\x00a\\x00t\\x00e\\x00\\t\\x00h\\x00e\\x00u\\x00r\\x00e\\x00\\t\\x00V\\x00i\\x00t\\x00e\\x00s\\x00s\\x00e\\x00\\t\\x00L\\x00a\\x00t\\x00i\\x00t\\x00u\\x00d\\x00e\\x00\\t\\x00L\\x00o\\x00n\\x00g\\x00i\\x00t\\x00u\\x00d\\x00e\\x00\\t\\x00T\\x00y\\x00p\\x00e\\x00\\t\\x00E\\x00n\\x00t\\x00r\\x00\\xe9\\x00e\\x00\\t\\x00E\\x00t\\x00a\\x00t\\x00\\n\']\nRun Code Online (Sandbox Code Playgroud)\n我正在处理 csv 文件,其原始形式为:
\n\n问题是它有两个功能一起引发问题:
\n第一行不是标题
\n标头“Entr\xc3\xa9e”中有一个重音符号,如果我不精确编码 cp1252,则会引发 UnicodeDecode 错误
\n我正在使用 Python 3.X 和 pandas 来处理这些文件。
\n但是当我尝试用这段代码阅读它时:
\nimport pandas as pd \n\ndf_T = pd.read_csv(\'file_T.csv\', header=1, sep=\';\', encoding = \'cp1252\')\nprint(df_T)\nRun Code Online (Sandbox Code Playgroud)\n\n为了正确读取 csv,我需要:
\n我怎样才能做到这一点?
\n\n\nPS:我知道我可以为此制作一个 VBA 程序或其他程序,但我不想这样做。我有兴趣将其包含在我的 Python 程序中,或者确定知道这是不可能的。
\n
CP1252 是简单的旧拉丁代码页,它支持所有西欧口音。如果文件是用该代码页编写的,则不会出现任何乱码。
\n\n您发布的数据的图像只是一个图像。它没有说明文件的原始格式。是UTF8文件吗?UTF16?这绝对不是CP1252。
\n\nUTF8 和 CP1252 都不会产生 NAN。任何单字节代码页至少都会读取数字,这意味着文件以多字节编码保存。
\n\n开头的两个奇怪的字符看起来像字节顺序标记。如果您检查Wikipedia 的 BOM 条目,您将看到这\xc3\xbf\xc3\xbe是 UTF16LE 的 BOM。
尝试使用utf-16或utf-16-le代替cp1252
| 归档时间: |
|
| 查看次数: |
4497 次 |
| 最近记录: |