小编Yur*_*uri的帖子

处理大型CSV文件的最佳方法是什么?

我有一个第三方系统,每天生成大量数据(这些CSV是存储在FTP上的文件).正在生成3种类型的文件:

  • 每15分钟(2个文件).这些文件很小(〜2 Mb)
  • 每天下午5点(〜200 - 300 Mb)
  • 每个午夜(这个CSV文件是关于1 Gb)

整体而言,4 CSV秒的大小是1.5 Gb.但是我们应该考虑到每15分钟生成一些文件.这些数据也应该汇总(不是那么难的过程,但肯定需要时间).我需要快速回复.我正在考虑如何将这些数据和整体存储在实现上.

我们有java堆栈.数据库是MS SQL Standard.从我MS SQL Standard与其他应用程序的测量结果将无法处理此类负载.我想到了什么:

  • 这可能是MS SQL Enterprise单独服务器的升级.
  • 的使用PostgreSQL单独的服务器上.现在我正在为这种方法开发PoC.

你会在这推荐什么?可能有更好的选择.

编辑#1

这些大文件是每天的新数据.

java architecture sql-server csv

5
推荐指数
1
解决办法
5578
查看次数

标签 统计

architecture ×1

csv ×1

java ×1

sql-server ×1