J_S*_*olz 5 python json mongodb pandas
我在 MongoDB 中有一个包含大量嵌套文档的集合,我想展平并导入到 Pandas 中。有一些嵌套的字典,还有我想要转换为列的字典列表(有关详细信息,请参阅下面的示例)。
我已经有了适用于小批量文档的功能。但解决方案(我在这个问题的答案中找到了它)使用 json. 该json.loads操作的问题是,它会MemoryError因集合中的选择过多而失败。
我尝试了许多建议其他 json 解析器(例如 ijson)的解决方案,但由于不同的原因,它们都没有解决我的问题。如果我想通过 json 继续进行转换,剩下的唯一方法就是将更大的选择分成更小的文档组并迭代解析。
此时我想,——这是我的主要问题——也许有一种更聪明的方法来取消嵌套,而无需直接在 MongoDB 或 Pandas 中或以某种方式组合通过 json 绕道?
这是一个简短的示例文档:
{
'_id': ObjectId('5b40fcc4affb061b8871cbc5'),
'eventId': 2,
'sId' : 6833,
'stage': {
'value': 1,
'Name': 'FirstStage'
},
'quality': [
{
'type': {
'value': 2,
'Name': 'Color'
},
'value': '124'
},
{
'type': {
'value': 7,
'Name': 'Length'
},
'value': 'Short'
},
{
'type': {
'value': 15,
'Name': 'Printed'
}
}
}
Run Code Online (Sandbox Code Playgroud)
这就是成功的数据帧表示的样子(为了便于阅读,我跳过了“_id”和“sId”列:
eventId stage.value stage.name q_color q_length q_printed
1 2 1 'FirstStage' 124 'Short' 1
Run Code Online (Sandbox Code Playgroud)
到目前为止我的代码(遇到内存问题 - 见上文):
def load_events(filter = 'sId', id = 6833, all = False):
if all:
print('Loading all events.')
cursor = events.find()
else:
print('Loading events with %s equal to %s.' %(filter, id))
print('Filtering...')
cursor = events.find({filter : id})
print('Loading...')
l = list(cursor)
print('Parsing json...')
sanitized = json.loads(json_util.dumps(l))
print('Parsing quality...')
for ev in sanitized:
for q in ev['quality']:
name = 'q_' + str(q['type']['Name'])
value = q.pop('value', 1)
ev[name] = value
ev.pop('quality',None)
normalized = json_normalize(sanitized)
df = pd.DataFrame(normalized)
return df
Run Code Online (Sandbox Code Playgroud)
您不需要使用 json 解析器转换嵌套结构。只需从记录列表创建数据框:
df = DataFrame(list(cursor))
Run Code Online (Sandbox Code Playgroud)
然后使用 pandas 来解压您的列表和字典:
import pandas
from itertools import chain
import numpy
df = pandas.DataFrame(t)
df['stage.value'] = df['stage'].apply(lambda cell: cell['value'])
df['stage.name'] = df['stage'].apply(lambda cell: cell['Name'])
df['q_']= df['quality'].apply(lambda cell: [(m['type']['Name'], m['value'] if 'value' in m.keys() else 1) for m in cell])
df['q_'] = df['q_'].apply(lambda cell: dict((k, v) for k, v in cell))
keys = set(chain(*df['q_'].apply(lambda column: column.keys())))
for key in keys:
column_name = 'q_{}'.format(key).lower()
df[column_name] = df['q_'].apply(lambda cell: cell[key] if key in cell.keys() else numpy.NaN)
df.drop(['stage', 'quality', 'q_'], axis=1, inplace=True)
Run Code Online (Sandbox Code Playgroud)
我使用三个步骤来解压嵌套数据类型。首先,名称和值用于创建对(元组)的平面列表。在第二步中,基于元组的字典从元组的第一个位置获取键并从第二个位置获取值。然后,使用集合一次提取所有现有属性名称。每个属性都使用循环获取一个新列。在循环内部,每对的值都映射到相应的列单元格。
| 归档时间: |
|
| 查看次数: |
1904 次 |
| 最近记录: |