小编Tha*_*wda的帖子

如何从迭代器创建Spark RDD?

为了说清楚,我不是从数组/列表中寻找RDD

List<Integer> list = Arrays.asList(1, 2, 3, 4, 5, 6, 7); // sample
JavaRDD<Integer> rdd = new JavaSparkContext().parallelize(list);
Run Code Online (Sandbox Code Playgroud)

如何在没有在内存中完全缓冲的情况下从java迭代器创建spark RDD ?

Iterator<Integer> iterator = Arrays.asList(1, 2, 3, 4).iterator(); //sample iterator for illustration
JavaRDD<Integer> rdd = new JavaSparkContext().what("?", iterator); //the Question
Run Code Online (Sandbox Code Playgroud)

附加问题:

是否要求源可重新读取(或能够多次读取)以提供RDD的弹性?换句话说,由于迭代器基本上只读一次,是否有可能从迭代器创建弹性分布式数据集(RDD)?

apache-spark spark-streaming

15
推荐指数
1
解决办法
7167
查看次数

使用Apache Spark进行分布式Web爬网 - 可能吗?

当我参加一个关于网络挖掘的访谈时,我问到了一个有趣的问题.问题是,是否可以使用Apache Spark抓取网站?

我猜这有可能,因为它支持Spark的分布式处理能力.在采访之后我搜索了这个,但找不到任何有趣的答案.这可能与Spark有关吗?

web-crawler web apache-spark

12
推荐指数
3
解决办法
1万
查看次数

'lambda'关键字的缩写替代方案?

背景:

Python是关于简单易读的代码.它比版本更好,我是一个巨大的粉丝!但是,l a m b d a每次我必须键入lambda时输入并不好玩(你可能不同意).问题是,l a m b d a当我在maps和filters中嵌入几个lambdas时,这6个字符使我的语句更长(我没有嵌套超过2或3,因为它消除了python的可读性 - 这里没有参数!)

实际问题(评论中):

# How to rename/alias a keyword to a nicer one? 
lines = map(lmbd x: x.strip(), sys.stdin)

# OR, better yet, how to define my own operator like -> in python?
lines = map(x -> x.strip(), sys.stdin)
# Or may be :: operator is pythonic
lines = map(x :: x.strip(), sys.stdin)

# INSTEAD of this ugly one. Taking …
Run Code Online (Sandbox Code Playgroud)

python lambda programming-languages keyword

10
推荐指数
3
解决办法
1910
查看次数

如何从提示符启动Scala

我从http://www.scalalang.org/downloads下载了Scala ,我想从提示和使用解释器开始做简单的程序.

你能逐步解释我如何推出一个简单的Hello World

谢谢

scala

7
推荐指数
1
解决办法
1082
查看次数