我有一个带有包含中文字符的数据表的Excel文档.我正在尝试将此Excel电子表格导出为CSV文件以导入MySQL数据库.
但是,当我将Excel文档另存为CSV文件时,记事本会将生成的CSV文件的中文字符显示为问号.导入MySQL会保留问号,完全忽略原始汉字的内容.
我怀疑这可能与使用带有UTF-8编码的Excel有关.谢谢你的帮助!
我正在使用JExcel库来读取excel电子表格.电子表格中的每个单元格都可以包含44种语言(英语,葡萄牙语,法语,中文等)中的任何一种本地化字符串.今天我不告诉API有关它应该使用的编码的任何信息.它处理中国好,但它总是搞砸葡萄牙和德国.不知何故,默认编码(我的开发盒上的MacRoman,生产中的UTF-8)无法正确解释它从excel工作簿中拉出的字符串.JExcel如何解释文件的字符编码有一些问题.
话虽如此...
excel工作簿中的所有字符串是否都使用相同的字符集进行编码?
是否有工作簿元数据我可以问这个字符集是什么(我还没有找到)?
如果我通过像jchardet(http://jchardet.sourceforge.net/)之类的东西运行所有单元格,是否可能能够为整个工作簿划分字符编码(这几乎是基于第一个问题"是的,给定工作簿中的所有stings都使用相同的字符集编码")?
这么多问题,时间太少了.
我正在尝试读取名为df1的数据集,但它不起作用
import pandas as pd
df1=pd.read_csv("https://raw.githubusercontent.com/tuyenhavan/Statistics/Dataset/World_Life_Expectancy.csv",sep=";")
df1.head()
Run Code Online (Sandbox Code Playgroud)
这是上述代码中的重大错误,但这是最相关的
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 18: invalid start byte
Run Code Online (Sandbox Code Playgroud)