如何将分类数据类型与 pyarrow dtypes 一起使用?

Hap*_*ing 3 python types pandas pyarrow dtype

我正在使用 pandas 处理箭头 dtypes,我的数据框有一个应该是分类的变量,但我不知道如何将其转换为分类数据的 pyarrow 数据类型(字典)

根据pandas(https://arrow.apache.org/docs/python/pandas.html#pandas-arrow-conversion),我应该使用的箭头数据类型是字典。

通常,如果您希望 pandas 使用 pyarrow dtype,只需将 [pyarrow] 添加到 pyarrow 类型的名称中,例如 dtype='string[pyarrow]'。我尝试使用 dtype='dictionary[pyarrow]',但这会产生错误:

数据类型“字典[pyarrow]”不理解

我还尝试了“categorical[pyarrow]”或“category[pyarrow]”、pyarrow.dictionary、pyarrow.dictionary(pyarrow.int16()、pyarrow.string()),但它们也不起作用。

如何在 pandas 系列上使用字典 dtype?pd.Series(['巧克力','糖果','华夫饼'], dtype='这里放什么???')

Big*_*Ben 5

我相信pd.ArrowDtype需要:

dtype=pd.ArrowDtype(pa.dictionary(pa.int16(), pa.string()))
Run Code Online (Sandbox Code Playgroud)