相关疑难解决方法(0)

熊猫合并101

  • 如何用pandas 执行(LEFT| RIGHT| FULL)(INNER| OUTER)连接?
  • 合并后如何为缺失的行添加NaN?
  • 合并后如何摆脱NaN?
  • 我可以合并索引吗?
  • 如何合并多个DataFrame?
  • mergejoinconcatupdate?谁?什么?为什么?!

... 和更多.我已经看到了这些反复出现的问题,询问了pandas合并功能的各个方面.今天关于合并及其各种用例的大部分信息在几十个措辞严厉,不可搜索的帖子中都是分散的.这里的目的是为后代整理一些更重要的观点.

这个QnA应该是关于常见熊猫习语的一系列有用的用户指南的下一部分(参见关于转动的这篇文章,以及关于连接的这篇文章,我将在稍后介绍).

请注意,这篇文章并不是文档的替代品,所以请阅读它!一些例子来自那里.

python merge join pandas

271
推荐指数
6
解决办法
4万
查看次数

合并两个Pandas数据帧时的MemoryError

我搜索了几乎所有的互联网,不知何故,这些方法似乎都不适用于我的情况.

我有两个大的csv文件(每个文件有一百万+行,大小约为300-400MB).它们使用read_csv函数正确加载到数据框中,而不必使用chunksize参数.我甚至对这些数据进行了一些小的操作,比如新的列生成,过滤等.

但是,当我尝试合并这两个帧时,我得到一个MemoryError.我甚至尝试使用SQLite来完成合并,但是徒劳无功.这项行动需要永远.

我是一台装有8GB RAM的Windows 7 PC.Python版本是2.7

谢谢.

编辑:我也尝试过分块方法.当我这样做时,我没有得到MemoryError,但RAM使用爆炸,我的系统崩溃.

python merge out-of-memory pandas

23
推荐指数
2
解决办法
2万
查看次数

标签 统计

merge ×2

pandas ×2

python ×2

join ×1

out-of-memory ×1