如何在spark中打印python中的rdd

Question

如何在spark中打印python中的rdd

ygu*_*guw 5 python apache-spark apache-spark-sql pyspark

我在HDFS上有两个文件,我只想在一个列上说这个两个文件加上员工ID.

我试图简单地打印文件,以确保我们从HDFS正确读取.

lines = sc.textFile("hdfs://ip:8020/emp.txt")
print lines.count()

Run Code Online (Sandbox Code Playgroud)

我也尝试过foreach和println函数,但是我无法显示文件数据.我在python中工作,对python和spark都是全新的.

Answer 1

Alb*_*nto 14

这很简单只需要收集 您必须确保所有数据都适合主服务器上的内存

my_rdd = sc.parallelize(xrange(10000000))
print my_rdd.collect()

Run Code Online (Sandbox Code Playgroud)

如果不是这种情况您必须使用take方法取样.

# I use an exagerated number to remind you it is very large and won't fit the memory in your master so collect wouldn't work
my_rdd = sc.parallelize(xrange(100000000000000000))
print my_rdd.take(100)

Run Code Online (Sandbox Code Playgroud)

使用.ipynb的另一个例子:

归档时间：	10 年，3 月前
查看次数：	21443 次
最近记录：	9 年，2 月前