我有一个非常基本的问题.Spark的flatMap功能允许您为每个输入发出0,1或更多输出.因此,您提供给flatMap的(lambda)函数应该返回一个列表.
我的问题是:如果这个列表太大而你的记忆无法处理,会发生什么?
我目前还没有实现这个,在我重写MapReduce软件之前应该解决这个问题,这个软件可以通过context.write()在我想要的算法中放置任何地方来轻松解决这个问题.(单个映射器的输出可能很容易大量的千兆字节.
如果您感兴趣:映射器会进行某种字数统计,但事实上它会生成所有可能的子字符串,以及与文本匹配的各种正则表达式.(生物信息学用例)