小编ana*_*nat的帖子

会话在 AWS EMR 集群中不活跃 Pyspark

我打开了一个 AWS EMR 集群，并在 pyspark3 jupyter notebook 中运行了以下代码：

"..
textRdd = sparkDF.select(textColName).rdd.flatMap(lambda x: x)
textRdd.collect().show()
.."

Run Code Online (Sandbox Code Playgroud)

我收到此错误：

An error was encountered:
Invalid status code '400' from http://..../sessions/4/statements/7 with error payload: {"msg":"requirement failed: Session isn't active."}

Run Code Online (Sandbox Code Playgroud)

运行线路：

sparkDF.show()

Run Code Online (Sandbox Code Playgroud)

作品！

我还创建了该文件的一小部分，并且我的所有代码都运行良好。

问题是什么？

amazon-emr pyspark

ana*_*nat

lucky-day

14
推荐指数

3
解决办法

8667
查看次数

计算 r 中行之间的杰卡德距离

我需要计算数据框中每行之间的杰卡德距离。返回需要是表示距离的矩阵/数据框。

像这样：

   1     2   3 ..
1  0    0.2  1 
2  0.2  0    0.4
3  1    0.4  0
.
.

Run Code Online (Sandbox Code Playgroud)

我的数据：

dput(项目[1:10,])

structure(list(Drama = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 
0L), Comedy = c(0L, 1L, 0L, 1L, 0L, 0L, 0L, 0L, 0L, 0L), Crime = c(0L, 
1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), SciFi = c(1L, 0L, 0L, 0L, 
0L, 0L, 0L, 0L, 0L, 0L), Kids = c(1L, 0L, 0L, 0L, 0L, 0L, 0L, 
1L, …

Run Code Online (Sandbox Code Playgroud)

ana*_*nat

2017 11-22

5
推荐指数

2
解决办法

1万
查看次数

python main.py转到pycharm中的文本文件

我突然对文件main.py遇到问题。我正在将蟒蛇与蟒蛇的3.6版本的蟒蛇一起使用。

我有一个可以正常运行的完整项目，现在“ main.py”成为文本文件。如果我打开一个新项目并将一个新的python文件命名为“ main”，它将自动变成文本文件（其他任何名称都保留为.py文件）。

问题是什么？

text program-entry-point pycharm python-3.x

ana*_*nat

2018 12-07

5
推荐指数

0
解决办法

235
查看次数

r 中的 MATCH 函数

有列表，第一个 (list1) 有 id,name,age 和其他 (list2,list3,..) 有 ids 和测试值（唯一）。

清单 1：

id  age name    bio-test    
1   40  danny
2   16  nora            
3   35  james
4   21  ben

Run Code Online (Sandbox Code Playgroud)

清单 2（生物测试）：

id  test passed year   
1   100   yes   1
5   80    yes   n/a      
4   55    no    2

Run Code Online (Sandbox Code Playgroud)

我正在尝试将每个 id 的测试值添加到 list1（并非每个 id 都有一个测试值）。

这是代码的一部分：

for (i in 1:length(list1)) { 
list1$test1value <- list2$test[match(list1$id[i], list2$id[i]),
nomatch = NA_integer_, incomparables = NULL)] }

Run Code Online (Sandbox Code Playgroud)

但是通过 id 查找测试值，它只复制了 list2 中的第一个测试值并将其复制到 200 个单元格，其他 3000 个是 N/A。

怎么了？

r match vlookup

ana*_*nat

2016 12-16

2
推荐指数

1
解决办法

1万
查看次数

在 python 中使用 sklearn 自己的估计器进行网格搜索 CV

我正在尝试构建自己的估计器（回归器）并将其用于插补（KnnImputation）。我在使用网格搜索“GridSearchCV”时遇到问题。有什么想法有什么问题吗？

我的代码：

class KnnImputation(BaseEstimator, RegressorMixin):

    def __init__(self, k=5, distance='euclidean'):
        self.k = k
        self.distance = distance

    def get_params(self, deep=False):
        return {'k': self.k, 'distance': self.distance}

    def set_params(self, **parameters):
        self.k = parameters['k']
        self.distance = parameters['distance']

    def fit(self, X, y):

        self.xTrain = X.values
        self.yTrain = y.values

        return self

    def predict(self, X):
        ........

        return yPred

# scorer:
scorer = make_scorer(mean_squared_error)

kf = KFold(n_splits=10, shuffle=False, random_state=23)
NN = KnnImputation()
gridSearchNN = GridSearchCV(NN, param_grid=params, scoring=scorer, n_jobs=1,
                            cv=kf.split(xTrain, yTrain), verbose=1)
gridSearchNN.fit(X=xTrain, y=yTrain)

Run Code Online (Sandbox Code Playgroud)

我的错误：

....
  File "C:\Users\...........\dataImputation.py", line 85, …

Run Code Online (Sandbox Code Playgroud)

python grid search knn imputation

ana*_*nat

2019 04-08

2
推荐指数

1
解决办法

1256
查看次数

标签统计

r ×2

amazon-emr ×1

grid ×1

imputation ×1

knn ×1

match ×1

program-entry-point ×1

pycharm ×1

pyspark ×1

python ×1

python-3.x ×1

search ×1

text ×1

vlookup ×1

会话在 AWS EMR 集群中不活跃 Pyspark

计算 r 中行之间的杰卡德距离

python main.py转到pycharm中的文本文件

r 中的 MATCH 函数

在 python 中使用 sklearn 自己的估计器进行网格搜索 CV

标签 统计

小编ana_nat的帖子

标签统计