相关疑难解决方法(0)

如何确定文本文件的编码表

我有.txt.java文件,我不知道如何确定文件的编码表(Unicode,UTF-8,ISO-8525,...).是否存在任何程序来确定文件编码或查看编码?

unicode encoding text character-encoding

44
推荐指数
3
解决办法
4万
查看次数

Python:UnicodeDecodeError:'utf-8'编解码器无法解码位置35中的字节0x96:无效的起始字节

我是Python的新手,我正在尝试使用下面的脚本读取csv文件.

Past=pd.read_csv("C:/Users/Admin/Desktop/Python/Past.csv",encoding='utf-8')
Run Code Online (Sandbox Code Playgroud)

但是,得到错误"UnicodeDecodeError:'utf-8'编解码器无法解码位置35中的字节0x96:无效的起始字节",请帮我解决这里的问题,我在脚本中使用编码认为它会解决错误.

python csv pandas

8
推荐指数
6
解决办法
3万
查看次数

Python读取带有希伯来语标题的csv

我试图用来dataset=pandas.read_csv('filename')制作一个框架。但不知何故我不能这样做,因为其中一个列标题是用希伯来语编写的。

我查了一下,DataFrame 有可能有一个希伯来语词作为列标题。 dataset.columns = ['????', 'b','c','d','e']但我想从包含希伯来语单词的 csv 中导入数据本身,我不能。

我收到此错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf9 in position 0: invalid start byte

如何使用列标题将数据集导入到 datadrame?

python csv utf-8 hebrew pandas

5
推荐指数
2
解决办法
4440
查看次数

Python/Pandas:如何读取 cp1252 中的 csv 并删除第一行?

解决方案 :

\n

查看答案,它不是以 CP1252 编码,而是以 UTF-16 编码。解决方案代码是:

\n
import pandas as pd\n\ndf = pd.read_csv(\'my_file.csv\', sep=\'\\t\', header=1, encoding=\'utf-16\')\n
Run Code Online (Sandbox Code Playgroud)\n

还适用于encoding=\'utf-16-le\'

\n
\n

更新:前 3 行的输出(以字节为单位):

\n
In : import itertools \n...:  print(list(itertools.islice(open(\'file_T.csv\', \'rb\'), 3)))\n\nOut : [b\'\\xff\\xfe"\\x00D\\x00u\\x00 \\x00m\\x00e\\x00r\\x00c\\x00r\\x00e\\x00d\\x00i\\x00 \\x000\\x005\\x00 \\x00j\\x00u\\x00i\\x00n\\x00 \\x002\\x000\\x001\\x009\\x00 \\x00a\\x00u\\x00 \\x00m\\x00e\\x00r\\x00c\\x00r\\x00e\\x00d\\x00i\\x00 \\x000\\x005\\x00 \\x00j\\x00u\\x00i\\x00n\\x00 \\x002\\x000\\x001\\x009\\x00\\n\', b\'\\x00"\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\t\\x00\\n\', b\'\\x00C\\x00o\\x00d\\x00e\\x00 \\x00M\\x00C\\x00U\\x00\\t\\x00I\\x00m\\x00m\\x00a\\x00t\\x00r\\x00i\\x00c\\x00u\\x00l\\x00a\\x00t\\x00i\\x00o\\x00n\\x00\\t\\x00D\\x00a\\x00t\\x00e\\x00\\t\\x00h\\x00e\\x00u\\x00r\\x00e\\x00\\t\\x00V\\x00i\\x00t\\x00e\\x00s\\x00s\\x00e\\x00\\t\\x00L\\x00a\\x00t\\x00i\\x00t\\x00u\\x00d\\x00e\\x00\\t\\x00L\\x00o\\x00n\\x00g\\x00i\\x00t\\x00u\\x00d\\x00e\\x00\\t\\x00T\\x00y\\x00p\\x00e\\x00\\t\\x00E\\x00n\\x00t\\x00r\\x00\\xe9\\x00e\\x00\\t\\x00E\\x00t\\x00a\\x00t\\x00\\n\']\n
Run Code Online (Sandbox Code Playgroud)\n
\n

我正在处理 csv 文件,其原始形式为:

\n

屏幕 du d\xc3\xa9but de file_T

\n

问题是它有两个功能一起引发问题:

\n
    \n
  • 第一行不是标题

    \n
  • \n
  • 标头“Entr\xc3\xa9e”中有一个重音符号,如果我不精确编码 cp1252,则会引发 UnicodeDecode 错误

    \n
  • \n
\n

我正在使用 Python 3.X 和 pandas 来处理这些文件。

\n

但是当我尝试用这段代码阅读它时:

\n
import …
Run Code Online (Sandbox Code Playgroud)

python csv pandas

2
推荐指数
1
解决办法
4497
查看次数

标签 统计

csv ×3

pandas ×3

python ×3

character-encoding ×1

encoding ×1

hebrew ×1

text ×1

unicode ×1

utf-8 ×1