当你有足够的内存时,最快的方式来分类巨大的(50-100 GB)文件

xbs*_*bsd 10 unix sorting memory-management

当数据不适合内存时,网上有很多关于在Unix上对大文件进行排序的讨论.通常使用mergesort和variants.

Hoewever,如果假设有足够的内存来容纳整个数据,那么最有效/最快的排序方式是什么?csv文件大约为50 GB(> 10亿行),并且有足够的内存(数据大小的5倍)来保存整个数据.

我可以使用Unix排序,但仍然需要> 1小时.我可以使用任何必要的语言,但我主要寻找的是速度.我知道我们可以将数据加载到一个柱状类型的db表和排序中,但这是一次性的努力,所以寻找更灵活的东西......

提前致谢.

小智 5

对海量数据使用并行排序算法。

有用的主题: 哪种并行排序算法具有最佳的平均情况性能?