pyarrow.lib.ArrowInvalid: ('无法将 X 转换为 Y 类型：在推断 Arrow 数据类型时无法识别 Python 值类型')

Question

pyarrow.lib.ArrowInvalid: ('无法将 X 转换为 Y 类型：在推断 Arrow 数据类型时无法识别 Python 值类型')

Nyx*_*nyx 14 python pandas parquet fastparquet pyarrow

使用以下代码pyarrow将pandas.DataFrame包含Player对象转换为 apyarrow.Table

import pandas as pd
import pyarrow as pa

class Player:
    def __init__(self, name, age, gender):
        self.name = name
        self.age = age
        self.gender = gender

    def __repr__(self):
        return f'<{self.name} ({self.age})>'

data = [
    Player('Jack', 21, 'm'),
    Player('Ryan', 18, 'm'),
    Player('Jane', 35, 'f'),
]
df = pd.DataFrame(data, columns=['player'])
print(pa.Table.from_pandas(df))

Run Code Online (Sandbox Code Playgroud)

我们得到错误：

pyarrow.lib.ArrowInvalid: ('Could not convert <Jack (21)> with type Player: did not recognize Python value type when inferring an Arrow data type', 'Conversion failed for column 0 with type object')

Run Code Online (Sandbox Code Playgroud)

使用时遇到同样的错误

df.to_parquet('players.pq')

Run Code Online (Sandbox Code Playgroud)

是否可以pyarrow回退到使用序列化这些 Python 对象pickle？或者有更好的解决方案吗？在pyarrow.Table使用最终会被写入到磁盘Parquet.write_table()。

使用 Python 3.8.0、pandas 0.25.3、pyarrow 0.13.0。
pandas.DataFrame.to_parquet()不支持多索引，因此pq.write_table(pa.Table.from_dataframe(pandas.DataFrame))首选使用解决方案。

谢谢！

Answer 1

Nim*_*mel 5

我的建议是将数据插入到已经序列化的 DataFrame 中。

最佳选择 - 使用数据类 (python >=3.7)

通过装饰器将 Player 类定义为数据类，并让序列化在本机为您完成（到 JSON）。

import pandas as pd
from dataclasses import dataclass

@dataclass
class PlayerV2:
    name:str
    age:int
    gender:str

    def __repr__(self):
        return f'<{self.name} ({self.age})>'


dataV2 = [
    PlayerV2(name='Jack', age=21, gender='m'),
    PlayerV2(name='Ryan', age=18, gender='m'),
    PlayerV2(name='Jane', age=35, gender='f'),
]

# The serialization is done natively to JSON
df_v2 = pd.DataFrame(data, columns=['player'])
print(df_v2)

# Can still get the objects's attributes by deserializeing the record
json.loads(df_v2["player"][0])['name']

Run Code Online (Sandbox Code Playgroud)

手动序列化对象 (python < 3.7)

在 Player 类中定义序列化函数，并在创建 Dataframe 之前序列化每个实例。

import pandas as pd
import json

class Player:
    def __init__(self, name, age, gender):
        self.name = name
        self.age = age
        self.gender = gender

    def __repr__(self):
        return f'<{self.name} ({self.age})>'
    
    # The serialization function for JSON, if for some reason you really need pickle you can use it instead
    def toJSON(self):
        return json.dumps(self, default=lambda o: o.__dict__)

# Serialize the objects before inserting it into the DataFrame
data = [
    Player('Jack', 21, 'm').toJSON(),
    Player('Ryan', 18, 'm').toJSON(),
    Player('Jane', 35, 'f').toJSON(),
]
df = pd.DataFrame(data, columns=['player'])

# You can see all the data inserted as a serialized json into the column player
print(df)

# Can still get the objects's attributes by deserializeing the record
json.loads(df["player"][0])['name']

Run Code Online (Sandbox Code Playgroud)

Answer 2

syg*_*eto 0

根据我的理解，由于repr原因，“类型”存在问题尝试这种方法（它有效）：

class Player:
    def __init__(self, name, age, gender):
        self.name = name
        self.age = age
        self.gender = gender

    def other(self):
        return f'<{self.name} ({self.age})>'

data = [
    Player('Jack', 21, 'm').other(),
    Player('Ryan', 18, 'm').other(),
    Player('Jane', 35, 'f').other(),
]
df = pd.DataFrame(data, columns=['player'])
print(df)
        player
0  <Jack (21)>
1  <Ryan (18)>
2  <Jane (35)>

print(pa.Table.from_pandas(df))

pyarrow.Table
player: string

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年前
查看次数：	7664 次
最近记录：	4 年，9 月前