如何将 Pydantic BaseModel 列表转换为 Pandas Dataframe

Question

如何将 Pydantic BaseModel 列表转换为 Pandas Dataframe

我似乎找不到任何简单地将 Pydantic BaseModel 列表转换为 Pandas Dataframe 的内置方法。

from pydantic import BaseModel
import pandas as pd

class SomeModel(BaseModel):
    col1: str
    col2: str

data = [SomeModel(**{'col1': 'foo', 'col2': 'bar'})] * 10
pd.DataFrame(data)

Run Code Online (Sandbox Code Playgroud)

输出

>>         0            1
>> 0  (col1, foo)  (col2, bar)
>> 1  (col1, foo)  (col2, bar)
>> ...

Run Code Online (Sandbox Code Playgroud)

通过这种方式，列被加载为数据。解决方法是执行以下操作

pd.Dataframe([model.dict() for model in data])

Run Code Online (Sandbox Code Playgroud)

输出

>>    col1 col2
>> 0  foo  bar
>> 1  foo  bar
>> ...

Run Code Online (Sandbox Code Playgroud)

然而，这种方法对于大量数据来说有点慢。有没有更快的方法？

Answer 1

pat*_*rry 14

不确定它是否更快，但FastAPI公开了jsonable_encoder它本质上对任意嵌套结构执行相同的转换BaseModel：

from fastapi.encoders import jsonable_encoder
pd.DataFrame(jsonable_encoder(data))

Run Code Online (Sandbox Code Playgroud)

Answer 2

cam*_*amo 5

快速而肮脏的分析产生以下值：

from pydantic import BaseModel
import pandas as pd
from fastapi.encoders import jsonable_encoder
class SomeModel(BaseModel):
    col1: int
    col2: str

data = [SomeModel(col1=1,col2="foo"),SomeModel(col1=2,col2="bar")]*4*10**5

import cProfile

cProfile.run( 'pd.DataFrame([s.dict() for s in data])' ) # around 8.2s
cProfile.run( 'pd.DataFrame(jsonable_encoder(data))' ) # around 30.8s
cProfile.run( 'pd.DataFrame([s.__dict__ for s in data])' ) # around 1.7s
cProfile.run( 'pd.DataFrame([dict(s) for s in data])' ) # around 3s

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，8 月前
查看次数：	2922 次
最近记录：	5 年，2 月前