小编The*_*ion的帖子

Spark：通过对临时表执行 sql 查询来创建临时表

我正在使用 Spark，我想知道：如何通过对表 A 和 B 执行 sql 查询来创建名为 C 的临时表？

sqlContext
   .read.json(file_name_A)
   .createOrReplaceTempView("A")

sqlContext
   .read.json(file_name_B)
   .createOrReplaceTempView("B")

val tableQuery = "(SELECT A.id, B.name FROM A INNER JOIN B ON A.id = B.fk_id) C"

sqlContext.read
   .format(SQLUtils.FORMAT_JDBC)
   .options(SQLUtils.CONFIG())
   .option("dbtable", tableQuery)
   .load()

Run Code Online (Sandbox Code Playgroud)

scala jdbc jenkins apache-spark

The*_*ion

2018 06-20

3
推荐指数

1
解决办法

3万
查看次数

Spark：使用Spark绘制模型的学习曲线

我正在使用Spark，我想训练机器学习模型。

由于结果不佳，我想显示模型在训练的每个时期（在训练和测试数据集上）产生的错误。

然后，我将使用此信息来确定我的模型是拟合数据不足还是拟合数据过度。

问题：如何绘制带有火花的模型的学习曲线？

在以下示例中，我实现了自己的评估程序并覆盖了评估方法以打印所需的指标，但是仅显示了两个值（maxIter = 1000）。

MinimalRunnableCode.scala：

import org.apache.spark.SparkConf
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.ml.regression.LinearRegression
import org.apache.spark.ml.tuning.{ParamGridBuilder, TrainValidationSplit}
import org.apache.spark.sql.SparkSession

object Min extends App {

  // Open spark session.
  val conf = new SparkConf()
    .setMaster("local")
    .set("spark.network.timeout", "800")

  val ss = SparkSession.builder
    .config(conf)
    .getOrCreate

  // Load data.
  val data = ss.createDataFrame(ss.sparkContext.parallelize(
      List(
        (Vectors.dense(1, 2), 1),
        (Vectors.dense(1, 3), 2),
        (Vectors.dense(1, 2), 1),
        (Vectors.dense(1, 3), 2),
        (Vectors.dense(1, 2), 1),
        (Vectors.dense(1, 3), 2),
        (Vectors.dense(1, 2), 1),
        (Vectors.dense(1, 3), 2),
        (Vectors.dense(1, 2), 1),
        (Vectors.dense(1, 3), …

Run Code Online (Sandbox Code Playgroud)

scala machine-learning apache-spark

The*_*ion

2018 06-26

2
推荐指数

1
解决办法

662
查看次数