我打开了一个 AWS EMR 集群,并在 pyspark3 jupyter notebook 中运行了以下代码:
"..
textRdd = sparkDF.select(textColName).rdd.flatMap(lambda x: x)
textRdd.collect().show()
.."
Run Code Online (Sandbox Code Playgroud)
我收到此错误:
An error was encountered:
Invalid status code '400' from http://..../sessions/4/statements/7 with error payload: {"msg":"requirement failed: Session isn't active."}
Run Code Online (Sandbox Code Playgroud)
运行线路:
sparkDF.show()
Run Code Online (Sandbox Code Playgroud)
作品!
我还创建了该文件的一小部分,并且我的所有代码都运行良好。
问题是什么?
我需要计算数据框中每行之间的杰卡德距离。返回需要是表示距离的矩阵/数据框。
像这样:
1 2 3 ..
1 0 0.2 1
2 0.2 0 0.4
3 1 0.4 0
.
.
Run Code Online (Sandbox Code Playgroud)
我的数据:
dput(项目[1:10,])
structure(list(Drama = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
0L), Comedy = c(0L, 1L, 0L, 1L, 0L, 0L, 0L, 0L, 0L, 0L), Crime = c(0L,
1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), SciFi = c(1L, 0L, 0L, 0L,
0L, 0L, 0L, 0L, 0L, 0L), Kids = c(1L, 0L, 0L, 0L, 0L, 0L, 0L,
1L, …Run Code Online (Sandbox Code Playgroud) 我突然对文件main.py遇到问题。我正在将蟒蛇与蟒蛇的3.6版本的蟒蛇一起使用。
我有一个可以正常运行的完整项目,现在“ main.py”成为文本文件。如果我打开一个新项目并将一个新的python文件命名为“ main”,它将自动变成文本文件(其他任何名称都保留为.py文件)。
问题是什么?
有列表,第一个 (list1) 有 id,name,age 和其他 (list2,list3,..) 有 ids 和测试值(唯一)。
清单 1:
id age name bio-test
1 40 danny
2 16 nora
3 35 james
4 21 ben
Run Code Online (Sandbox Code Playgroud)
清单 2(生物测试):
id test passed year
1 100 yes 1
5 80 yes n/a
4 55 no 2
Run Code Online (Sandbox Code Playgroud)
我正在尝试将每个 id 的测试值添加到 list1(并非每个 id 都有一个测试值)。
这是代码的一部分:
for (i in 1:length(list1)) {
list1$test1value <- list2$test[match(list1$id[i], list2$id[i]),
nomatch = NA_integer_, incomparables = NULL)] }
Run Code Online (Sandbox Code Playgroud)
但是通过 id 查找测试值,它只复制了 list2 中的第一个测试值并将其复制到 200 个单元格,其他 3000 个是 N/A。
怎么了?
我正在尝试构建自己的估计器(回归器)并将其用于插补(KnnImputation)。我在使用网格搜索“GridSearchCV”时遇到问题。有什么想法有什么问题吗?
我的代码:
class KnnImputation(BaseEstimator, RegressorMixin):
def __init__(self, k=5, distance='euclidean'):
self.k = k
self.distance = distance
def get_params(self, deep=False):
return {'k': self.k, 'distance': self.distance}
def set_params(self, **parameters):
self.k = parameters['k']
self.distance = parameters['distance']
def fit(self, X, y):
self.xTrain = X.values
self.yTrain = y.values
return self
def predict(self, X):
........
return yPred
# scorer:
scorer = make_scorer(mean_squared_error)
kf = KFold(n_splits=10, shuffle=False, random_state=23)
NN = KnnImputation()
gridSearchNN = GridSearchCV(NN, param_grid=params, scoring=scorer, n_jobs=1,
cv=kf.split(xTrain, yTrain), verbose=1)
gridSearchNN.fit(X=xTrain, y=yTrain)
Run Code Online (Sandbox Code Playgroud)
我的错误:
....
File "C:\Users\...........\dataImputation.py", line 85, …Run Code Online (Sandbox Code Playgroud) r ×2
amazon-emr ×1
grid ×1
imputation ×1
knn ×1
match ×1
pycharm ×1
pyspark ×1
python ×1
python-3.x ×1
search ×1
text ×1
vlookup ×1