NameError:名称“split”未用 Spark 定义

Chi*_*ode 5 split apache-spark pyspark pyspark-sql

我一直在用 Spark 处理一个大数据集。上周,当我运行以下代码行时,它运行良好,现在它抛出一个错误:NameError: name 'split' is not defined。有人可以解释为什么这不起作用,我该怎么办?名称拆分未定义...我应该定义方法吗?它是我应该导入的依赖项吗?文档没有说我必须导入任何东西才能使用 split 方法。下面的代码。

test_df = spark_df.withColumn(
  "Keywords", 
   split(col("Keywords"), "\\|")
)
Run Code Online (Sandbox Code Playgroud)

wer*_*ner 5

您可以使用pyspark.sql.functions.split(),但您首先需要导入此函数:

from pyspark.sql.functions import split
Run Code Online (Sandbox Code Playgroud)

最好只显式导入您需要的函数。不要这样做from pyspark.sql.functions import *

  • 您能尝试一下导入语句“from pyspark.sql.functions import *”吗? (2认同)