从嵌套的 json 列表中展平 Pandas DataFrame

Question

从嵌套的 json 列表中展平 Pandas DataFrame

use*_*346 2 python json nested dataframe pandas

也许有人可以帮助我。我试图将以下 ist 平铺到一个 Pandas 数据帧中：

[{u'_id': u'2',
  u'_index': u'list',
  u'_score': 1.4142135,
  u'_source': {u'name': u'name3'},
  u'_type': u'doc'},
 {u'_id': u'5',
  u'_index': u'list',
  u'_score': 1.4142135,
  u'_source': {u'dat': u'2016-12-12', u'name': u'name2'},
  u'_type': u'doc'},
 {u'_id': u'1',
  u'_index': u'list',
  u'_score': 1.4142135,
  u'_source': {u'name': u'name1'},
  u'_type': u'doc'}]

Run Code Online (Sandbox Code Playgroud)

结果应如下所示：

|_id   | _index | _score | name | dat        | _type |
------------------------------------------------------
|1     |list    |1.4142..| name1| nan        | doc   |
|2     |list    |1.4142..| name3| nan        | doc   |
|3     |list    |1.4142..| name1| 2016-12-12 | doc   |

Run Code Online (Sandbox Code Playgroud)

但是我尝试做的所有事情都无法获得所需的结果。我使用了这样的东西：

df = pd.concat(map(pd.DataFrame.from_dict, res['hits']['hits']), axis=1)['_source'].T

Run Code Online (Sandbox Code Playgroud)

但是后来我丢失了 _source 字段之外的类型。我也尝试与

test = pd.DataFrame(list)
for index, row in test.iterrows():
  test.loc[index,'d'] =

Run Code Online (Sandbox Code Playgroud)

但我不知道如何使用字段 _source 并将其附加到原始数据框。

有人知道如何做到这一点并成为理想的结果吗？

Answer 1

jez*_*ael 5

使用json_normalize：

from pandas.io.json import json_normalize  

df = json_normalize(data)
print (df)
  _id _index    _score _source.dat _source.name _type
0   2   list  1.414214         NaN        name3   doc
1   5   list  1.414214  2016-12-12        name2   doc
2   1   list  1.414214         NaN        name1   doc

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，4 月前
查看次数：	2459 次
最近记录：	9 年，4 月前