具有字典列表的列的 pyarrow 数据类型？

Question

具有字典列表的列的 pyarrow 数据类型？

当我保存到镶木地板文件时，是否应该对具有字典列表的列使用特殊的 pyarrow 数据类型？

如果我将列表或字典列表保存为字符串，如果我再次将其读入内存，通常必须使用该字段，.apply(eval)以便 pandas 将数据识别为列表（这样我可以使用对其进行标准化pd.json_normalize）

列_a：

[
 {"id": "something", "value": "else"},
 {"id": "something2", "value": "else2"},
]

Run Code Online (Sandbox Code Playgroud)

列_b：

["test", "test2", "test3"]

Run Code Online (Sandbox Code Playgroud)

只是想知道我是否应该将此数据保存为字符串以外的其他内容。

编辑 - 粘贴来自 Zendesk 的一些原始 JSON 的片段。审计字段有一个名为events 的字段，它是一个字典列表。其中，还可以有其他词典列表（附件和其中有一个称为缩略图的词典列表）

您可以使用 pa.map_ 来处理这样的情况吗？我有时需要从这些嵌套字段中检索数据，而我最初甚至不知道这些字段是否存在。在我当前的镶木地板数据集中，事件字段只是一列（字符串类型），即使其中有许多嵌套字段。

udt = pa.map_(pa.string(), pa.string())

Run Code Online (Sandbox Code Playgroud)

。

  "audit": {
    "id": ,
    "ticket_id": ,
    "created_at": "",
    "author_id": ,
    "events": [
      {
        "id": ,
        "type": "",
        "author_id": ,
        "body": "" ,
        "plain_body": "",
        "public": false,
        "attachments": [
          {
            "url": "",
            "id": ,
            "file_name": "",
            "content_url": "",
            "content_type": "image/png",
            "size": 2888,
            "width": 100,
            "height": 30,
            "inline": false,
            "deleted": false,
            "thumbnails": [
              {
                "url": "",
                "id": ,
                "file_name": "",
                "content_url": "",
                "mapped_content_url": "",
                "content_type": "image/png",
                "size": 2075,
                "width": 80,
                "height": 24,
                "inline": false,
                "deleted": false
              }
            ]
          },

Run Code Online (Sandbox Code Playgroud)

Answer 1

Art*_*hur 4

假设您有一个带有“字典”和字符串列的 df，并且字典都具有相同的键（id，您的情况下的值）：

df = pd.DataFrame({
        'col1': pd.Series([
            {"id": "something", "value": "else"}, 
            {"id": "something2", "value": "else2"}
        ]),
        'col2': pd.Series(['foo', 'bar'])
    }
)

udt = pa.struct([pa.field('id', pa.string()), pa.field('value', pa.string())])
schema = pa.schema([pa.field('col1', udt), pa.field('col2', pa.string())])

table = pa.Table.from_pandas(df, schema)
df = table.to_pandas()

Run Code Online (Sandbox Code Playgroud)

如果你的字典没有相同的键或者你事先不知道字典的键，你可以这样做：

df = pd.DataFrame({
        'col1': pd.Series([
            [('id', 'something'), ('value', '"else')],
            [('id', 'something2'), ('value','else2')],
        ]),
        'col2': pd.Series(['foo', 'bar'])
    }
)

udt = pa.map_(pa.string(), pa.string())
schema = pa.schema([pa.field('col1', udt), pa.field('col2', pa.string())])

table = pa.Table.from_pandas(df, schema)

Run Code Online (Sandbox Code Playgroud)

请注意，col1 的格式不同（它使用对列表而不是字典）。此外，您还无法将表转换回 pandas，因为它尚不受支持：

table.to_pandas()
>>> ArrowNotImplementedError: No known equivalent Pandas block for Arrow data of type map<string, string> is known.

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，5 月前
查看次数：	5854 次
最近记录：	5 年，4 月前