小编ana*_*nat的帖子

会话在 AWS EMR 集群中不活跃 Pyspark

我打开了一个 AWS EMR 集群,并在 pyspark3 jupyter notebook 中运行了以下代码:

"..
textRdd = sparkDF.select(textColName).rdd.flatMap(lambda x: x)
textRdd.collect().show()
.."
Run Code Online (Sandbox Code Playgroud)

我收到此错误:

An error was encountered:
Invalid status code '400' from http://..../sessions/4/statements/7 with error payload: {"msg":"requirement failed: Session isn't active."}
Run Code Online (Sandbox Code Playgroud)

运行线路:

sparkDF.show()
Run Code Online (Sandbox Code Playgroud)

作品!

我还创建了该文件的一小部分,并且我的所有代码都运行良好。

问题是什么?

amazon-emr pyspark

14
推荐指数
3
解决办法
8667
查看次数

计算 r 中行之间的杰卡德距离

我需要计算数据框中每行之间的杰卡德距离。返回需要是表示距离的矩阵/数据框。

像这样:

   1     2   3 ..
1  0    0.2  1 
2  0.2  0    0.4
3  1    0.4  0
.
.
Run Code Online (Sandbox Code Playgroud)

我的数据:

dput(项目[1:10,])

structure(list(Drama = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 
0L), Comedy = c(0L, 1L, 0L, 1L, 0L, 0L, 0L, 0L, 0L, 0L), Crime = c(0L, 
1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), SciFi = c(1L, 0L, 0L, 0L, 
0L, 0L, 0L, 0L, 0L, 0L), Kids = c(1L, 0L, 0L, 0L, 0L, 0L, 0L, 
1L, …
Run Code Online (Sandbox Code Playgroud)

r

5
推荐指数
2
解决办法
1万
查看次数

python main.py转到pycharm中的文本文件

我突然对文件main.py遇到问题。我正在将蟒蛇与蟒蛇的3.6版本的蟒蛇一起使用。

我有一个可以正常运行的完整项目,现在“ main.py”成为文本文件。如果我打开一个新项目并将一个新的python文件命名为“ main”,它将自动变成文本文件(其他任何名称都保留为.py文件)。

问题是什么?

text program-entry-point pycharm python-3.x

5
推荐指数
0
解决办法
235
查看次数

r 中的 MATCH 函数

有列表,第一个 (list1) 有 id,name,age 和其他 (list2,list3,..) 有 ids 和测试值(唯一)。

清单 1:

id  age name    bio-test    
1   40  danny
2   16  nora            
3   35  james
4   21  ben
Run Code Online (Sandbox Code Playgroud)

清单 2(生物测试):

id  test passed year   
1   100   yes   1
5   80    yes   n/a      
4   55    no    2
Run Code Online (Sandbox Code Playgroud)

我正在尝试将每个 id 的测试值添加到 list1(并非每个 id 都有一个测试值)。

这是代码的一部分:

for (i in 1:length(list1)) { 
list1$test1value <- list2$test[match(list1$id[i], list2$id[i]),
nomatch = NA_integer_, incomparables = NULL)] }
Run Code Online (Sandbox Code Playgroud)

但是通过 id 查找测试值,它只复制了 list2 中的第一个测试值并将其复制到 200 个单元格,其他 3000 个是 N/A。

怎么了?

r match vlookup

2
推荐指数
1
解决办法
1万
查看次数

在 python 中使用 sklearn 自己的估计器进行网格搜索 CV

我正在尝试构建自己的估计器(回归器)并将其用于插补(KnnImputation)。我在使用网格搜索“GridSearchCV”时遇到问题。有什么想法有什么问题吗?

我的代码:

class KnnImputation(BaseEstimator, RegressorMixin):

    def __init__(self, k=5, distance='euclidean'):
        self.k = k
        self.distance = distance

    def get_params(self, deep=False):
        return {'k': self.k, 'distance': self.distance}

    def set_params(self, **parameters):
        self.k = parameters['k']
        self.distance = parameters['distance']

    def fit(self, X, y):

        self.xTrain = X.values
        self.yTrain = y.values

        return self

    def predict(self, X):
        ........

        return yPred

# scorer:
scorer = make_scorer(mean_squared_error)

kf = KFold(n_splits=10, shuffle=False, random_state=23)
NN = KnnImputation()
gridSearchNN = GridSearchCV(NN, param_grid=params, scoring=scorer, n_jobs=1,
                            cv=kf.split(xTrain, yTrain), verbose=1)
gridSearchNN.fit(X=xTrain, y=yTrain)
Run Code Online (Sandbox Code Playgroud)

我的错误:

....
  File "C:\Users\...........\dataImputation.py", line 85, …
Run Code Online (Sandbox Code Playgroud)

python grid search knn imputation

2
推荐指数
1
解决办法
1256
查看次数