Pandas 使用 XLSX Writer - 恒定内存/内存中表现出色

Question

Pandas 使用 XLSX Writer - 恒定内存/内存中表现出色

我正在使用 pandas 并xlsxwriter在 AWS lambda 中创建 Excel 报告。我遇到了一个问题：创建 60MB 区域内相当大的 Excel 文件时，磁盘空间已满，但还有 512MB 的可用磁盘空间。

我一直在试图弄清楚发生这种情况的原因和原因，并且我发现了一个看起来很有前途的属性，我可以通过，constant_memory所以我使用以下代码尝试了这一点：

with pd.ExcelWriter(output, options={"constant_memory": True}) as writer:

Run Code Online (Sandbox Code Playgroud)

看来这实际上确保了我的 lambda 始终如一地运行完成，如果我删除它，它就不再完成，但问题是我收到以下警告：

FutureWarning: Use of **kwargs is deprecated, use engine_kwargs instead.
    with pd.ExcelWriter(output, options={"constant_memory": True}) as writer:

Run Code Online (Sandbox Code Playgroud)

然后我读了一篇关于 SO 的文章，我认为作者建议xlsxwriter这个属性在使用 pandas 时实际上不起作用。这一点很明显，因为我只得到了 Excel 报告中的第一列和 360000 行的最后一行。我很困惑如何通过这个来确保我的 lambda 完成0？为什么如果我不通过它，那么我的 lambda 就会耗尽磁盘空间？

第二个奇怪的事情是 pandas 的文档options根本没有提到任何调用的参数，如果我尝试constant_memory使用engine_kwargs：

with pd.ExcelWriter(output, engine_kwargs={'constant_memory': True}) as writer:

Run Code Online (Sandbox Code Playgroud)

我收到以下错误：

TypeError: __init__() got an unexpected keyword argument 'constant_memory'

Run Code Online (Sandbox Code Playgroud)

我希望更熟悉 xlsxwriter 的人可以帮助我理解这几点。

的文档xlsxwriter还提到了一个属性in_memory，这似乎可以解决我的问题，但我无法将其传递给pd.ExcelWriter：

TypeError: __init__() got an unexpected keyword argument 'in_memory'

Run Code Online (Sandbox Code Playgroud)

**编辑：传递in_memory确实解决了我遇到的问题，但我收到一条弃用警告，使用 kwargs 传递它options。

with pd.ExcelWriter(output, options={"in_memory": True}) as writer:

FutureWarning: Use of **kwargs is deprecated, use engine_kwargs instead.
    with pd.ExcelWriter(output, options={"in_memory": True}) as writer:

Run Code Online (Sandbox Code Playgroud)

我如何将此属性传递给xlsxwriter使用 pandas 而不会收到弃用警告，因为它似乎解决了我的问题？

Answer 1

jmc*_*ara 4

当您收到弃用通知时，将 xlsxwriter 选项传递给 Pandas 的正确语法是：

writer = pd.ExcelWriter('pandas_example.xlsx',
                        engine='xlsxwriter',
                        engine_kwargs={'options': {'strings_to_numbers': True}})

Run Code Online (Sandbox Code Playgroud)

请参阅XlsxWriter 文档的这一部分。

然而，正如您在问题中指出的那样，并且从您的观察来看，该constant_memory选项不适用于 Pandas，因为它需要按行顺序写入数据，但 Pandas 使用逐列顺序。

而且，需要明确的是，该constant_memory选项只会减少应用程序使用的“内存”。它不会使文件的大小变小（事实上，如果文件包含大量字符串数据，它通常会使文件变大）。它可能只能“解决”您的问题，因为它只将一列数据写入文件，因此文件比预期小得多。

归档时间：	4 年，10 月前
查看次数：	5780 次
最近记录：	2 年，8 月前