我希望使用Pyspark语法将我的分类变量伪编码为数字变量,如下图所示。
我读了这样的数据
data = sqlContext.read.csv("data.txt", sep = ";", header = "true")
Run Code Online (Sandbox Code Playgroud)
在python中,我可以使用以下代码对变量进行编码
data = pd.get_dummies(data, columns = ['Continent'])
Run Code Online (Sandbox Code Playgroud)
但是我不确定如何在Pyspark中做到这一点。
任何帮助将不胜感激。