使用xlrd读取包含中文和/或印地文字符的Excel xls文件

Hul*_*ulk 4 python xls xlrd cjk hindi

http://scienceoss.com/read-excel-files-from-python/comment-page-1/#comment-1051

从上面的链接,我使用此实用程序来读取XLS文件.如果XLS文件包含不同的语言字符(如中文或印地语),则无法正确输出.这有解决方法吗?

谷歌搜索后,我发现了这个:

import xlrd

def upload_xls(dir,file,request):
    try:
        global msg
        global row_num
        row_num = []
        header_arr = []
        global file_path
        file_path = dir
        #reader = csv.reader(open(file), delimiter='#', quotechar='"')
        book = xlrd.open_workbook('dodgy.xls',encoding='cp1252')   ##To specify UTF8-encoding
        wb.sheet_names()
        sh =  wb.sheet_by_index(0)
        valid_xl_format = 0
        invalid_xl_format = 0
     except:
        print "Error
Run Code Online (Sandbox Code Playgroud)

但是该行有一个错误book = open_workbook('dodgy.xls',encoding='cp1252'):

TypeError: open_workbook() got an unexpected keyword argument 'encoding'

Joh*_*hin 8

[dis] claimer:我是xlrd的作者.

如果xls包含不同的语言字符,如chine或hindi.它不输出确切的措辞.是否有一个解决这个问题..

encoding_override参数(仅在文档中说明)仅用于OLD文件(由早于Excel 97(即1997年)的Excel生成),并且只有在内部记录的"代码页"丢失或不正确时才会使用.

注意:带有中文字符的旧文件:覆盖'cp1252'可以保证引发异常.

注意:带有"印地语"(梵文?)字符的旧文件:非常不可能......据我所知,任何ISCII脚本都没有官方支持的代码页,我也没有听说过任何非官方脚本.有关此主题和/或示例文件的任何信息都将非常受欢迎.

Excel 97及更高版本以(有效)UTF-16LE记录所有文本数据.如果文件是有效的Excel-97或更高版本文件,则忽略encoding_override.

无论生成该文件的Excel版本如何(如文档所述),xlrd都会返回unicode字符串.您的问题更可能与您显示或转换这些unicode字符串的方式有关.

如需进一步的帮助,请编辑您的问题以显示实际输出的示例以及"准确的措辞".


Sim*_*bbs 6

根据xlrd 模块文档,正确的参数是:encoding_override ="cp1252"而不是encoding ="cp1252".

从导入xlrd模块的方式来看,您应该将函数调用为xlrd.open_workbook,但在示例代码中,您可以直接使用该函数,就像您使用了"from xlrd import*"一样.