Sal*_*Sal 14 apache-spark pyspark spark-dataframe
使用Spark我正在读取csv并希望将函数应用于csv上的列.我有一些有用的代码,但它非常hacky.这样做的正确方法是什么?
我的代码
SparkContext().addPyFile("myfile.py")
spark = SparkSession\
.builder\
.appName("myApp")\
.getOrCreate()
from myfile import myFunction
df = spark.read.csv(sys.argv[1], header=True,
mode="DROPMALFORMED",)
a = df.rdd.map(lambda line: Row(id=line[0], user_id=line[1], message_id=line[2], message=myFunction(line[3]))).toDF()
Run Code Online (Sandbox Code Playgroud)
我希望能够只在列名称上调用函数,而不是将每一行映射到line然后调用函数line[index].
我正在使用Spark版本2.0.1
Ber*_*sop 23
您可以简单地使用用户定义的函数(udf)与withColumn:
from pyspark.sql.types import IntegerType
from pyspark.sql.functions import udf
udf_myFunction = udf(myFunction, IntegerType()) # if the function returns an int
df.withColumn("message", udf_myFunction("_3")) #"_3" being the column name of the column you want to consider
Run Code Online (Sandbox Code Playgroud)
这将向df包含结果的数据框添加一个新列myFunction(line[3]).
| 归档时间: |
|
| 查看次数: |
10941 次 |
| 最近记录: |