保存pd.DataFrame时如何强制镶木地板dtypes？

Question

保存pd.DataFrame时如何强制镶木地板dtypes？

Hug*_*hot 11 python pandas parquet dask pyarrow

有没有办法强制镶木地板文件将pd.DataFrame列编码为给定类型,即使该列的所有值都为空？镶木地板在其模式中自动分配"null"的事实阻止我将许多文件加载到单个文件中dask.dataframe.

试图使用pandas列投射df.column_name = df.column_name.astype(sometype)不起作用.

我为什么这么问

我想将许多镶木地板文件加载到一个单独的dask.dataframe.所有文件都是pd.DataFrame使用多个实例生成的df.to_parquet(filename).所有数据帧都具有相同的列,但对于某些列,给定列可能只包含空值.当试图将所有文件加载到dask.dataframe(使用时df = dd.read_parquet('*.parquet'),我得到以下错误:

Schema in filename.parquet was different.
id: int64
text: string
[...]
some_column: double

vs

id: int64
text: string
[...]
some_column: null

Run Code Online (Sandbox Code Playgroud)

重现我的问题的步骤

import pandas as pd
import dask.dataframe as dd
a = pd.DataFrame(['1', '1'], columns=('value',))
b = pd.DataFrame([None, None], columns=('value',))
a.to_parquet('a.parquet')
b.to_parquet('b.parquet')
df = dd.read_parquet('*.parquet')  # Reads a and b

Run Code Online (Sandbox Code Playgroud)

这给了我以下内容:

ValueError: Schema in path/to/b.parquet was different. 
value: null
__index_level_0__: int64
metadata
--------
{b'pandas': b'{"index_columns": ["__index_level_0__"], "column_indexes": [{"na'
            b'me": null, "field_name": null, "pandas_type": "unicode", "numpy_'
            b'type": "object", "metadata": {"encoding": "UTF-8"}}], "columns":'
            b' [{"name": "value", "field_name": "value", "pandas_type": "empty'
            b'", "numpy_type": "object", "metadata": null}, {"name": null, "fi'
            b'eld_name": "__index_level_0__", "pandas_type": "int64", "numpy_t'
            b'ype": "int64", "metadata": null}], "pandas_version": "0.22.0"}'}

vs

value: string
__index_level_0__: int64
metadata
--------
{b'pandas': b'{"index_columns": ["__index_level_0__"], "column_indexes": [{"na'
            b'me": null, "field_name": null, "pandas_type": "unicode", "numpy_'
            b'type": "object", "metadata": {"encoding": "UTF-8"}}], "columns":'
            b' [{"name": "value", "field_name": "value", "pandas_type": "unico'
            b'de", "numpy_type": "object", "metadata": null}, {"name": null, "'
            b'field_name": "__index_level_0__", "pandas_type": "int64", "numpy'
            b'_type": "int64", "metadata": null}], "pandas_version": "0.22.0"}'}

Run Code Online (Sandbox Code Playgroud)

请注意我们在一个案例中以及在另一个案例中我们如何"pandas_type": "unicode"拥有"pandas_type": "empty".

相关问题没有为我提供解决方案

从PyArrow编写Parquet文件时如何指定逻辑类型？

Answer 1

mdu*_*ant 5

如果您改用fastparquet，则可以实现所需的聊天

import pandas as pd
import dask.dataframe as dd
a = pd.DataFrame(['1', '1'], columns=('value',))
b = pd.DataFrame([None, None], columns=('value',))
a.to_parquet('a.parquet', object_encoding='int', engine='fastparquet')
b.to_parquet('b.parquet', object_encoding='int', engine='fastparquet')

dd.read_parquet('*.parquet').compute()

Run Code Online (Sandbox Code Playgroud)

给

   value
0    1.0
1    1.0
0    NaN
1    NaN

Run Code Online (Sandbox Code Playgroud)

NaN 被实现为 float http://pandas.pydata.org/pandas-docs/stable/gotchas.html#support-for-integer-na (2认同)

归档时间：	8 年，1 月前
查看次数：	2517 次
最近记录：	8 年，1 月前