如何建立快速可靠的S3到EC2连接

san*_*uru 6 amazon-s3 amazon-ec2

EC2提供了一种非常方便的按需可扩展机制来执行可分发(并行可执行)的进程,S3提供了可靠的存储服务.

我试图将EC2节点用于ETL和分析过程,这个过程需要非常快速地(并且一天中几次)摄取大量数据(100GB-1TB),并且可以在短时间内提供足够的计算资源.

以上设计需要

  1. S3和EC2之间的高带宽/快速连接.
  2. S3 - > EC2连接也应该是可靠的,因为必须尽快完成启动,泵入数据,执行过程和终止节点的调度,这不仅是为了节省成本,还因为涉及SLA.

但到目前为止

  1. 从S3中提取数据的唯一方法似乎是通过http,因此它受到EC2节点的下载带宽的限制.
  2. 此外,数据摄取通过因特网进行,因此对于严格的调度目的而言可能是不可靠的,从而需要在作业之间进行适当的缓冲.

在私有数据中心设置中,可以在存储和物理节点之间建立更快(例如10Gbps)的专用线路.

如果aws可以满足上述要求,是否有任何可能的替代/服务选项.

cee*_*yoz 5

取决于巨大,对各种各样的事情 - 网络多少活动在同一个物理服务器上的其他EC2实例都在做,你在任何一个时间打特定的S3节点,无论你是在同一个区域作为你的S3终点等

你可以自己做基准测试,但即便如此,它也会有很大差异.我有时会得到每秒几兆字节,而其他时间则达到几百字节.


san*_*uru 5

我认为现在有一个更好的答案。

有一个单独的服务数据管道,可在 S3 和 EC2 之间提供可靠的数据传输