小编zim*_*mer的帖子

访问PySpark数据框中的特定项目

例如,我如何访问PySpark数据帧中某个列的某个索引处的值,例如,我想访问名为“ Category”的列的索引5处的值。如何使用PySpark语法做到这一点?

python dataframe pyspark

5
推荐指数
1
解决办法
5022
查看次数

使用 Scikit-learn 和 Pandas 将编码列连接到原始数据帧

我正在尝试使用 Python 的 Scikit-learn 将文件中的所有文本数据编码.csv为数字。我正在datatype 的列上使用LabelEncoder和。我想知道如何将新的编码列与原始数据帧连接起来 -在这种情况下。我对此很陌生,非常感谢一些帮助。这是我的代码:OneHotEncoderobjectdf

"""Encode all columns with type Object using LabelEncoder"""
columnsToEncode=df.select_dtypes(include=[object])

labelEncoder = preprocessing.LabelEncoder()
df_2 = columnsToEncode.apply(labelEncoder.fit_transform)

"""Now encode using OneHotEncoder"""
oneHotEncoder = preprocessing.OneHotEncoder()
df_3=oneHotEncoder.fit_transform(df_2)
Run Code Online (Sandbox Code Playgroud)

python pandas scikit-learn one-hot-encoding

4
推荐指数
1
解决办法
7126
查看次数