Chi*_*ode 5 split apache-spark pyspark pyspark-sql
我一直在用 Spark 处理一个大数据集。上周,当我运行以下代码行时,它运行良好,现在它抛出一个错误:NameError: name 'split' is not defined。有人可以解释为什么这不起作用,我该怎么办?名称拆分未定义...我应该定义方法吗?它是我应该导入的依赖项吗?文档没有说我必须导入任何东西才能使用 split 方法。下面的代码。
test_df = spark_df.withColumn(
"Keywords",
split(col("Keywords"), "\\|")
)
Run Code Online (Sandbox Code Playgroud)
您可以使用pyspark.sql.functions.split()
,但您首先需要导入此函数:
from pyspark.sql.functions import split
Run Code Online (Sandbox Code Playgroud)
最好只显式导入您需要的函数。不要这样做from pyspark.sql.functions import *
。