相关疑难解决方法(0)

python中json.dump()和json.dumps()有什么区别?

我在这个官方文档中搜索,找到python中json.dump()和json.dumps()之间的区别.很明显,它们与文件写入选项有关.
但是它们之间的细微差别是什么?在什么情况下,一个人比其他人更有优势呢?

python json python-2.7

97
推荐指数
4
解决办法
7万
查看次数

如何以追加模式将 DataFrame 导出到 json - Python Pandas?

我有一个现有的 json 文件,格式为字典列表。

$cat output.json
[{'a':1, 'b':2}, {'a':2, 'b':3}]
Run Code Online (Sandbox Code Playgroud)

我有一个数据框

df = pd.DataFrame({'a':pd.Series([1,2], index=list('CD')), \
              "b":pd.Series([3,4], index=list('CD')})
Run Code Online (Sandbox Code Playgroud)

我想用 to_json 保存“df”以将其附加到文件 output.json:

df.to_json('output.json', orient='records')  #  mode='a' not available for to_json
Run Code Online (Sandbox Code Playgroud)

* to_csv有append mode='a',但to_json实际上没有。

预期生成的output.json 文件将是:

    [{'a':1, 'b':2}, {'a':2, 'b':3}, {'a':1, 'b':3}, {'a':2, 'b':4}]
Run Code Online (Sandbox Code Playgroud)

现有文件output.json可能很大(例如太字节),是否可以在不加载文件的情况下附加新的数据帧结果?

python json numpy dataframe pandas

5
推荐指数
1
解决办法
1万
查看次数

合并预先排序的文件而不将所有内容读入内存

我有一个日志文件列表,其中每个文件中的每一行都有一个时间戳,并且行在每个文件中按升序排列.不同的文件可以有重叠的时间范围,我的目标是将它们组合成一个大文件,按时间戳排序.在排序中可能存在联系,在这种情况下,我希望下一行来自我输入列表中首先列出的任何文件.

我已经看到了如何使用fileinput(参见此处)的示例,但这似乎将所有文件读入内存.由于我的文件很大,这将是一个问题.因为我的文件是预先排序的,所以似乎应该有一种方法来合并它们,使用的方法只需要考虑每个文件中最新的未探索行.

python

2
推荐指数
1
解决办法
3431
查看次数

标签 统计

python ×3

json ×2

dataframe ×1

numpy ×1

pandas ×1

python-2.7 ×1