例如,我如何访问PySpark数据帧中某个列的某个索引处的值,例如,我想访问名为“ Category”的列的索引5处的值。如何使用PySpark语法做到这一点?
我正在尝试使用 Python 的 Scikit-learn 将文件中的所有文本数据编码.csv为数字。我正在datatype 的列上使用LabelEncoder和。我想知道如何将新的编码列与原始数据帧连接起来 -在这种情况下。我对此很陌生,非常感谢一些帮助。这是我的代码:OneHotEncoderobjectdf
"""Encode all columns with type Object using LabelEncoder"""
columnsToEncode=df.select_dtypes(include=[object])
labelEncoder = preprocessing.LabelEncoder()
df_2 = columnsToEncode.apply(labelEncoder.fit_transform)
"""Now encode using OneHotEncoder"""
oneHotEncoder = preprocessing.OneHotEncoder()
df_3=oneHotEncoder.fit_transform(df_2)
Run Code Online (Sandbox Code Playgroud)