我有数千个非常大的 JSON 文件,需要对特定元素进行处理。为了避免内存过载,我使用了一个名为ijson的 python 库,当我只处理 json 文件中的单个元素时,它工作得很好,但当我尝试一次处理多个元素时,它会通过
IncompleteJSONError:解析错误:过早的 EOF
部分 JSON:
{
"info": {
"added": 1631536344.112968,
"started": 1631537322.81162,
"duration": 14,
"ended": 1631537337.342377
},
"network": {
"domains": [
{
"ip": "231.90.255.25",
"domain": "dns.msfcsi.com"
},
{
"ip": "12.23.25.44",
"domain": "teo.microsoft.com"
},
{
"ip": "87.101.90.42",
"domain": "www.msf.com"
}
]
}
}
Run Code Online (Sandbox Code Playgroud)
工作代码:(打开多个文件)
my_file_list = [f for f in glob.glob("data/jsons/*.json")]
final_result = []
for filename in my_file_list:
row = {}
with open(filename, 'r') as f:
info = ijson.items(f, 'info')
for o in info:
row['added']= float(o.get('added'))
row['started']= float(o.get('started'))
row['duration']= o.get('duration')
row['ended']= float(o.get('ended'))
with open(filename, 'r') as f:
domains = ijson.items(f, 'network.domains.item')
domain_count = 0
for domain in domains:
domain_count+=1
row['domain_count'] = domain_count
Run Code Online (Sandbox Code Playgroud)
失败代码:(单个文件打开)
my_file_list = [f for f in glob.glob("data/jsons/*.json")]
final_result = []
for filename in my_file_list:
row = {}
with open(filename, 'r') as f:
info = ijson.items(f, 'info')
for o in info:
row['added']= float(o.get('added'))
row['started']= float(o.get('started'))
row['duration']= o.get('duration')
row['ended']= float(o.get('ended'))
domains = ijson.items(f, 'network.domains.item')
domain_count = 0
for domain in domains:
domain_count+=1
row['domain_count'] = domain_count
Run Code Online (Sandbox Code Playgroud)
不确定这就是 使用 python ijson 读取包含多个 json 对象的大型 json 文件的原因,而 ijson 无法同时处理多个 json 元素。
另外,请让我知道任何其他 python 包或任何可以处理大尺寸 json 而没有内存问题的示例。
我认为发生这种情况是因为您已经完成从文件中读取 IO 流,您已经到了最后,并且已经请求另一个查询。
您可以做的是在第二次查询之前将光标重置到 0 位置:
f.seek(0)
Run Code Online (Sandbox Code Playgroud)
在评论中我说你json-stream也应该尝试一下,但这不是一个ijson或json-stream错误,它是一个 TextIO 功能。
这相当于您第二次打开该文件。
如果您不想这样做,那么也许您应该考虑迭代 JSON 的每个部分,然后确定每个对象是否具有info或network.domains.item。
| 归档时间: |
|
| 查看次数: |
1154 次 |
| 最近记录: |