Pyspark'NoneType'对象没有属性'_jvm'错误

Question

Pyspark'NoneType'对象没有属性'_jvm'错误

use*_*058 4 python apache-spark apache-spark-sql pyspark

我试图使用spark 2.2在DataFrame的每个分区中打印总元素

from pyspark.sql.functions import *
from pyspark.sql import SparkSession

def count_elements(splitIndex, iterator):
    n = sum(1 for _ in iterator)
    yield (splitIndex, n)

spark = SparkSession.builder.appName("tmp").getOrCreate()
num_parts = 3
df = spark.read.json("/tmp/tmp/gon_s.json").repartition(num_parts)
print("df has partitions."+ str(df.rdd.getNumPartitions()))
print("Elements across partitions is:" + str(df.rdd.mapPartitionsWithIndex(lambda ind, x: count_elements(ind, x)).take(3)))

Run Code Online (Sandbox Code Playgroud)

上面的代码不断失败，并出现以下错误

  n = sum(1 for _ in iterator)
  File "/home/dev/wk/pyenv/py3/lib/python3.5/site-packages/pyspark/python/lib/pyspark.zip/pyspark/sql/functions.py", line 40, in _
    jc = getattr(sc._jvm.functions, name)(col._jc if isinstance(col, Column) else col)
AttributeError: 'NoneType' object has no attribute '_jvm'

Run Code Online (Sandbox Code Playgroud)

在删除下面的导入后

from pyspark.sql.functions import *

Run Code Online (Sandbox Code Playgroud)

代码工作正常

skewed_large_df has partitions.3
The distribution of elements across partitions is:[(0, 1), (1, 2), (2, 2)]

Run Code Online (Sandbox Code Playgroud)

是什么导致此错误，我该如何解决？

Answer 1

pau*_*ult 9

这是为什么不应该使用的import *一个很好的例子。

线

from pyspark.sql.functions import *

Run Code Online (Sandbox Code Playgroud)

会将pyspark.sql.functions模块中的所有功能引入您的名称空间，其中包括一些将隐藏内置函数的功能。

具体的问题在下面的count_elements函数中：

n = sum(1 for _ in iterator)
#   ^^^ - this is now pyspark.sql.functions.sum

Run Code Online (Sandbox Code Playgroud)

您打算打电话给__builtin__.sum，但是import *内建的阴影笼罩了。

而是，请执行以下任一操作：

import pyspark.sql.functions as f

Run Code Online (Sandbox Code Playgroud)

要么

from pyspark.sql.functions import sum as sum_

Run Code Online (Sandbox Code Playgroud)

这是一个合法的答案。我没有关闭这个问题。能否请您关闭投票？:) (2认同)

归档时间：	7 年，11 月前
查看次数：	3987 次
最近记录：	6 年，10 月前