ric*_*nal 5 java csv large-files
我必须比较Windows 平台中包含的两个大小为2-3 GB 的csv 文件。
我试图将第一个放在 HashMap 中以将其与第二个进行比较,但结果(如预期)是非常高的内存消耗。
目标是获取另一个文件中的差异。
这些行可能以不同的顺序出现,也可能会被遗漏。
有什么建议吗?
假设您希望通过编程在 Java 中执行此操作,答案会有所不同。
这两个文件都已订购吗?如果是这样,那么您不需要读取整个文件,只需从两个文件的开头开始,然后
如果您没有订购文件,那么也许您可以在比较之前订购文件。同样,由于您需要低内存解决方案,因此不要读入整个文件来对其进行排序。将文件切成可管理的块,然后对每个块进行排序。然后使用插入排序来组合这些块。
| 归档时间: | 
 | 
| 查看次数: | 10212 次 | 
| 最近记录: |