ygu*_*guw 5 python apache-spark apache-spark-sql pyspark
我在HDFS上有两个文件,我只想在一个列上说这个两个文件加上员工ID.
我试图简单地打印文件,以确保我们从HDFS正确读取.
lines = sc.textFile("hdfs://ip:8020/emp.txt")
print lines.count()
Run Code Online (Sandbox Code Playgroud)
我也尝试过foreach和println函数,但是我无法显示文件数据.我在python中工作,对python和spark都是全新的.
Alb*_*nto 14
这很简单只需要收集 您必须确保所有数据都适合主服务器上的内存
my_rdd = sc.parallelize(xrange(10000000))
print my_rdd.collect()
Run Code Online (Sandbox Code Playgroud)
如果不是这种情况您必须使用take方法取样.
# I use an exagerated number to remind you it is very large and won't fit the memory in your master so collect wouldn't work
my_rdd = sc.parallelize(xrange(100000000000000000))
print my_rdd.take(100)
Run Code Online (Sandbox Code Playgroud)
使用.ipynb的另一个例子:
| 归档时间: |
|
| 查看次数: |
21443 次 |
| 最近记录: |