Sah*_*hil 9 python apache-spark rdd
我正在使用 Jupyter Notebook,刚刚开始学习 Apache Spark,但在创建简单的 RDD 时出现错误:
sc.parallelize([2, 3, 4]).count()
Run Code Online (Sandbox Code Playgroud)
错误是:parallelize() missing 1 required positional argument: 'c'
这种情况发生在每种情况下,就像我尝试一样textFile(""),我发现位置参数丢失了。我有sparkcontext as sc,有人可以帮我解决这个问题吗?
您必须初始化 SparkContext。
以下是《学习 Spark:闪电般快速的大数据分析》中的示例代码
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)
Run Code Online (Sandbox Code Playgroud)
小智 0
rdd = sc.parallelize([2, 3, 4])
c = rdd.count()
Run Code Online (Sandbox Code Playgroud)
count()方法返回一个long类型值而不是rdd。
| 归档时间: |
|
| 查看次数: |
13031 次 |
| 最近记录: |