我想ParamGridBuilder在Spark 1.4.x中找到CrossValidator中最佳模型的参数,
在Spark文档中的Pipeline示例中,它们通过在管道中使用来添加不同的参数(numFeatures,regParam)ParamGridBuilder.然后通过以下代码行创建最佳模型:
val cvModel = crossval.fit(training.toDF)
Run Code Online (Sandbox Code Playgroud)
现在,我想知道从中产生最佳模型的参数(numFeatures,regParam)是什么ParamGridBuilder.
我已经使用了以下命令但没有成功:
cvModel.bestModel.extractParamMap().toString()
cvModel.params.toList.mkString("(", ",", ")")
cvModel.estimatorParamMaps.toString()
cvModel.explainParams()
cvModel.getEstimatorParamMaps.mkString("(", ",", ")")
cvModel.toString()
Run Code Online (Sandbox Code Playgroud)
有帮助吗?
提前致谢,
pipeline scala cross-validation apache-spark apache-spark-mllib
我想使用Scala IDE并在Windows 7上运行spark代码.我已经安装了Scala IDE并开始创建一个scala项目.所以我需要知道:
是否有任何指令在Scala IDE中运行以下代码:
/* SimpleApp.scala */
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
def main(args: Array[String]) {
val logFile = "D:/Spark_Installation/eclipse-ws/Scala/README.md" // Should be some file on your system
val conf = new SparkConf().setAppName("Simple Application")
.setMaster("spark://myhost:7077")
val sc = new SparkContext(conf)
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}
}
Run Code Online (Sandbox Code Playgroud)
当我运行此代码时,我收到以下错误:
15/03/26 11:59:55 INFO AppClient$ClientActor: Connecting …Run Code Online (Sandbox Code Playgroud) 我有一个闪亮的应用程序,可以读取一个csv文件并清理数据并添加几列,...(我使用此示例创建了该应用程序)。最后,应用程序将清理后的数据(output.csv)保存在应用程序文件夹内的日志文件夹中。
我还设计了一个Rmd文件,该文件位于闪亮的应用程序文件夹中。Rmd文件使用输出文件(log / output.csv)。
保存(output.csv)后,我想调用Rmd文件显示报告,该怎么办?