据我了解,这两个包为 Apache Spark 提供了相似但主要不同的包装函数。Sparklyr 较新,但仍需要在功能范围内增长。因此,我认为目前需要同时使用这两个软件包才能获得完整的功能范围。
由于这两个包本质上都包装了对 Scala 类的 Java 实例的引用,因此我猜应该可以并行使用这些包。但实际上有可能吗?你的最佳实践是什么?
好吧,我知道已经有很多相关的问题,但没有一个能满足我的特殊需求。
我想在一个有 50 列的表上使用 dplyr “summarize”,我需要对这些应用不同的汇总函数。
"Summarize_all" 和 "summarize_at" 似乎都有一个缺点,即无法将不同的函数应用于不同的变量子组。
例如,假设 iris 数据集有 50 列,因此我们不想按名称对列进行寻址。我想要前两列的总和,第三列的平均值和所有剩余列的第一个值(在 group_by(Species) 之后)。我怎么能这样做?
我使用进行备份,rsync并使用该选项--files-from定义了应该同步的目录列表。现在,我打算通过该--exclude选项扩展命令,但是它不起作用。
更具体地说,该include-list.txt文件已经包含目录,/home/user/shared/并且我想排除新的子目录/home/user/shared/BIG_DATA/。
这是不起作用的命令。
rsync -azvvr \
--files-from '/home/user/BACKUP_MNGMT/include-list.txt' \
--exclude '/home/user/BACKUP_MNGMT/exclude-list.txt' \
-e ssh / user@server:/home/user/Backup
Run Code Online (Sandbox Code Playgroud) 我正在尝试重复以下代码行:
x.mat <- as.matrix(train.df[,predictors])
y.class <- train.df$Response
cv.lasso.fit <- cv.glmnet(x = x.mat, y = y.class,
family = "binomial", alpha = 1, nfolds = 10)
Run Code Online (Sandbox Code Playgroud)
...使用插入符号包,但无效:
trainControl <- trainControl(method = "cv",
number = 10,
# Compute Recall, Precision, F-Measure
summaryFunction = prSummary,
# prSummary needs calculated class probs
classProbs = T)
modelFit <- train(Response ~ . -Id, data = train.df,
method = "glmnet",
trControl = trainControl,
metric = "F", # Optimize by F-measure
alpha=1,
family="binomial")
Run Code Online (Sandbox Code Playgroud)
无法识别参数“ alpha”,并且“模型拟合每次折叠都会失败”。
我究竟做错了什么?帮助将不胜感激。谢谢。