我正在从两个需要加入的不同数据库中下载两个数据集.当我将它们存储为CSV时,它们中的每一个分别约为500MB.分别适合内存,但当我加载两个时,我有时会得到一个内存错误.当我尝试将它们与熊猫合并时,我肯定会遇到麻烦.
对它们进行外连接的最佳方法是什么,这样我就不会出现内存错误?我手头没有任何数据库服务器,但如果有帮助,我可以在我的计算机上安装任何类型的开源软件.理想情况下,我仍然只想在熊猫中解决它,但不确定这是否可行.
澄清一下:合并是指外连接.每个表都有两行:产品和版本.我想检查左表中的产品和版本,仅右表和两个表.我做了一个
pd.merge(df1,df2,left_on=['product','version'],right_on=['product','version'], how='outer')
Run Code Online (Sandbox Code Playgroud)