相关疑难解决方法(0)

我是Apache Spark的初学者，确实有以下任务：

我正在从数据源读取记录，在Spark转换中，需要通过调用外部Web服务来增强数据，然后才能对其进行进一步处理。

该Web服务将在一定程度上接受并行调用，但一次只允许发送几百条记录。而且，它非常慢，因此尽可能多地进行批处理和并行请求无疑在这里有所帮助。

有没有办法以合理的方式做到这一点？

我想到了读取记录，将它们预处理到另一个数据源，然后一次读取“ API-Queue”数据源500条记录（如果可能的话，可以使用多个进程），然后将记录写入下一个数据源，并使用此结果数据源做最后的转变。

在API调用中，唯一需要遵守这些怪异限制的地方（这就是为什么我认为某些中间数据格式/数据源将是合适的）。

您有什么要向我指出的想法或方向吗？

5
推荐指数

2
解决办法

6156
查看次数