我有.txt和.java文件,我不知道如何确定文件的编码表(Unicode,UTF-8,ISO-8525,...).是否存在任何程序来确定文件编码或查看编码?
我是Python的新手,我正在尝试使用下面的脚本读取csv文件.
Past=pd.read_csv("C:/Users/Admin/Desktop/Python/Past.csv",encoding='utf-8')
Run Code Online (Sandbox Code Playgroud)
但是,得到错误"UnicodeDecodeError:'utf-8'编解码器无法解码位置35中的字节0x96:无效的起始字节",请帮我解决这里的问题,我在脚本中使用编码认为它会解决错误.
我试图用来dataset=pandas.read_csv('filename')制作一个框架。但不知何故我不能这样做,因为其中一个列标题是用希伯来语编写的。
我查了一下,DataFrame 有可能有一个希伯来语词作为列标题。
dataset.columns = ['????', 'b','c','d','e']但我想从包含希伯来语单词的 csv 中导入数据本身,我不能。
我收到此错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf9 in position 0: invalid start byte。
如何使用列标题将数据集导入到 datadrame?
查看答案,它不是以 CP1252 编码,而是以 UTF-16 编码。解决方案代码是:
\nimport pandas as pd\n\ndf = pd.read_csv(\'my_file.csv\', sep=\'\\t\', header=1, encoding=\'utf-16\')\nRun Code Online (Sandbox Code Playgroud)\n还适用于encoding=\'utf-16-le\'
更新:前 3 行的输出(以字节为单位):
\nIn : import itertools \n...: print(list(itertools.islice(open(\'file_T.csv\', \'rb\'), 3)))\n\nOut : [b\'\\xff\\xfe"\\x00D\\x00u\\x00 \\x00m\\x00e\\x00r\\x00c\\x00r\\x00e\\x00d\\x00i\\x00 \\x000\\x005\\x00 \\x00j\\x00u\\x00i\\x00n\\x00 \\x002\\x000\\x001\\x009\\x00 \\x00a\\x00u\\x00 \\x00m\\x00e\\x00r\\x00c\\x00r\\x00e\\x00d\\x00i\\x00 \\x000\\x005\\x00 \\x00j\\x00u\\x00i\\x00n\\x00 \\x002\\x000\\x001\\x009\\x00\\n\', b\'\\x00"\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\n\', b\'\\x00C\\x00o\\x00d\\x00e\\x00 \\x00M\\x00C\\x00U\\x00\\t\\x00I\\x00m\\x00m\\x00a\\x00t\\x00r\\x00i\\x00c\\x00u\\x00l\\x00a\\x00t\\x00i\\x00o\\x00n\\x00\\t\\x00D\\x00a\\x00t\\x00e\\x00\\t\\x00h\\x00e\\x00u\\x00r\\x00e\\x00\\t\\x00V\\x00i\\x00t\\x00e\\x00s\\x00s\\x00e\\x00\\t\\x00L\\x00a\\x00t\\x00i\\x00t\\x00u\\x00d\\x00e\\x00\\t\\x00L\\x00o\\x00n\\x00g\\x00i\\x00t\\x00u\\x00d\\x00e\\x00\\t\\x00T\\x00y\\x00p\\x00e\\x00\\t\\x00E\\x00n\\x00t\\x00r\\x00\\xe9\\x00e\\x00\\t\\x00E\\x00t\\x00a\\x00t\\x00\\n\']\nRun Code Online (Sandbox Code Playgroud)\n我正在处理 csv 文件,其原始形式为:
\n\n问题是它有两个功能一起引发问题:
\n第一行不是标题
\n标头“Entr\xc3\xa9e”中有一个重音符号,如果我不精确编码 cp1252,则会引发 UnicodeDecode 错误
\n我正在使用 Python 3.X 和 pandas 来处理这些文件。
\n但是当我尝试用这段代码阅读它时:
\nimport …Run Code Online (Sandbox Code Playgroud)