相关疑难解决方法(0)

我想Estimator在PySpark MLlib中构建一个简单的自定义.我在这里可以编写一个自定义的Transformer,但我不知道如何在一个Estimator.我也不明白是什么@keyword_only以及为什么我需要这么多的二传手和吸气剂.Scikit-learn似乎有一个适用于自定义模型的文档(请参阅此处,但PySpark没有.

示例模型的伪代码:

class NormalDeviation():
    def __init__(self, threshold = 3):
    def fit(x, y=None):
       self.model = {'mean': x.mean(), 'std': x.std()]
    def predict(x):
       return ((x-self.model['mean']) > self.threshold * self.model['std'])
    def decision_function(x): # does ml-lib support this?

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark apache-spark-ml apache-spark-mllib

Han*_*art

2019 11-20

13
推荐指数

1
解决办法

4313
查看次数

如何在pyspark中对一组列进行分桶？

我正在尝试对 5k 数据集中包含单词“road”的列进行分桶。并创建一个新的数据框。

我不知道该怎么做，这是我迄今为止尝试过的：

from pyspark.ml.feature import Bucketizer

spike_cols = [col for col in df.columns if "road" in col]

for x in spike_cols :

    bucketizer = Bucketizer(splits=[-float("inf"), 10, 100, float("inf")],
                        inputCol=x, outputCol=x + "bucket")

bucketedData = bucketizer.transform(df)

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

Mat*_*hew

2018 07-19

5
推荐指数

1
解决办法

2863
查看次数