熊猫-编写包含Unicode的Excel文件-IllegalCharacterError

kyp*_*hos 6 python unicode export-to-excel pandas

我有以下代码:

import pandas as pd

x = [u'string with some unicode: \x16']
df = pd.DataFrame(x)
Run Code Online (Sandbox Code Playgroud)

如果我尝试将此数据帧写为excel文件:

df.to_excel("test.xlsx")
Run Code Online (Sandbox Code Playgroud)

或者,如果我尝试使用utf-8编码将此数据帧写为excel文件:

ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
df.to_excel(ew)
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

IllegalCharacterError                     Traceback (most recent call last)
<ipython-input-4-62adec25ae8d> in <module>()
      1 ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
      2 #df.to_excel("test.xlsx")
----> 3 df.to_excel(ew)

/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs)
     86                 else:
     87                     kwargs[new_arg_name] = new_arg_value
---> 88             return func(*args, **kwargs)
     89         return wrapper
     90     return _deprecate_kwarg

/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in to_excel(self, excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, startcol, engine, merge_cells, encoding, inf_rep)
   1258         formatted_cells = formatter.get_formatted_cells()
   1259         excel_writer.write_cells(formatted_cells, sheet_name,
-> 1260                                  startrow=startrow, startcol=startcol)
   1261         if need_save:
   1262             excel_writer.save()

/usr/local/lib/python2.7/dist-packages/pandas/io/excel.pyc in write_cells(self, cells, sheet_name, startrow, startcol)
    679             colletter = get_column_letter(startcol + cell.col + 1)
    680             xcell = wks.cell("%s%s" % (colletter, startrow + cell.row + 1))
--> 681             xcell.value = _conv_value(cell.val)
    682             style_kwargs = {}
    683 

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in value(self, value)
    360     def value(self, value):
    361         """Set the value and infer type and display options."""
--> 362         self._bind_value(value)
    363 
    364     @property

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in _bind_value(self, value)
    269             elif self.guess_types:
    270                 value = self._infer_value(value)
--> 271         self.set_explicit_value(value, self.data_type)
    272 
    273 

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in set_explicit_value(self, value, data_type)
    235             raise ValueError('Invalid data type: %s' % data_type)
    236         if isinstance(value, STRING_TYPES):
--> 237             value = self.check_string(value)
    238         self._value = value
    239         self.data_type = data_type

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in check_string(self, value)
    220         value = value[:32767]
    221         if next(ILLEGAL_CHARACTERS_RE.finditer(value), None):
--> 222             raise IllegalCharacterError
    223         return value
    224 

IllegalCharacterError: 
Run Code Online (Sandbox Code Playgroud)

如何将包含unicode的pandas数据框写入Excel文件?

bob*_*nce 6

不是 Unicode 问题本身...... \x16(或在 Unicode 字符串\u0016中指的是同一个字符)是 ASCII 控制代码 22 (SYN)。Pandas 说在 Excel 文件中包含控制代码(制表符和换行符除外)是无效的,尽管我对 Excel 文件了解不多,但肯定不可能将它们包含在 XML 1.0 文件中,这就是xlsx。

所以很可能没有办法在 Excel 中包含任意字符序列(带有控制代码)。您应该在写入之前将它们过滤掉,或者如果您确实需要保留原始数据,请使用某种只能由您的应用程序识别的特殊编码形式。


小智 6

使用它来消除您可能遇到的任何错误。你可以保存到excel张贴这个。

df = df.applymap(lambda x: x.encode('unicode_escape').
                 decode('utf-8') if isinstance(x, str) else x)
Run Code Online (Sandbox Code Playgroud)

  • 好吧....它可以工作,但是生成的文件内容类似于“\u4ee5\u4e0b\u6587\u9577...” (3认同)

all*_*lee 6

我在这篇文章中回答了类似的问题:https ://stackoverflow.com/a/63950544/1851492 ,下面是相同的内容。


如果您不想安装另一个Excel writer引擎(例如xlsxwriter),您可以尝试通过查找引发问题的模式来删除这些非法字符IllegalCharacterError

打开cell.py路径下的文件/path/to/your/python/site-packages/openpyxl/cell/,查找check_string函数,你会看到它使用定义的正则表达式模式ILLEGAL_CHARACTERS_RE来查找那些非法字符。尝试找到它的定义你会看到这一行:

ILLEGAL_CHARACTERS_RE = re.compile(r'[\000-\010]|[\013-\014]|[\016-\037]')

这行是您删除这些字符所需的。将此行复制到您的程序中,并在数据帧写入 Excel 之前执行以下代码:

dataframe = dataframe.applymap(lambda x: ILLEGAL_CHARACTERS_RE.sub(r'', x) if isinstance(x, str) else x)

上面的行将应用删除这些字符到每个单元格。


小智 5

我也遇到了同样的问题。我解决了如下问题:

首先,安装python软件包xlsxwriter:

pip install xlsxwriter
Run Code Online (Sandbox Code Playgroud)

其次,将默认引擎“ openpyxl”替换为“ xlsxwriter”:

df.to_excel("test.xlsx", engine='xlsxwriter')
Run Code Online (Sandbox Code Playgroud)

  • 你知道为什么 xlsxwriter 能够解决这个问题吗? (4认同)