SparkSQL 函数需要类型为 Decimal

Question

SparkSQL 函数需要类型为 Decimal

nes*_*est 3 types scala apache-spark apache-spark-sql

我设计了以下函数来处理任何数字类型的数组：

def array_sum[T](item:Traversable[T])(implicit n:Numeric[T]) = item.sum
// Registers a function as a UDF so it can be used in SQL statements.
sqlContext.udf.register("array_sumD", array_sum(_:Seq[Float]))

Run Code Online (Sandbox Code Playgroud)

但是想要传递一个 float 类型的数组会出现以下错误：

// Now we can use our function directly in SparkSQL.
sqlContext.sql("SELECT array_sumD(array(5.0,1.0,2.0)) as array_sum").show

Run Code Online (Sandbox Code Playgroud)

错误：

 cannot resolve 'UDF(array(5.0,1.0,2.0))' due to data type mismatch: argument 1 requires array<double> type, however, 'array(5.0,1.0,2.0)' is of array<decimal(2,1)> type;

Run Code Online (Sandbox Code Playgroud)

Answer 1

Tza*_*har 5

Spark-SQL 中十进制值的默认数据类型是十进制。如果您将查询中的文字转换为浮点数，并使用相同的 UDF，它会起作用：

sqlContext.sql(
  """SELECT array_sumD(array(
    |  CAST(5.0 AS FLOAT),
    |  CAST(1.0 AS FLOAT),
    |  CAST(2.0 AS FLOAT)
    |)) as array_sum""".stripMargin).show

Run Code Online (Sandbox Code Playgroud)

结果，如预期：

+---------+
|array_sum|
+---------+
|      8.0|
+---------+

Run Code Online (Sandbox Code Playgroud)

或者，如果您确实想使用小数（以避免浮点问题），您仍然必须使用强制转换来获得正确的精度，而且您将无法使用 Scala 的 nice Numericand sum，因为小数被读取为java.math.BigDecimal. 所以 - 你的代码将是：

def array_sum(item:Traversable[java.math.BigDecimal]) = item.reduce((a, b) => a.add(b))

// Registers a function as a UDF so it can be used in SQL statements.
sqlContext.udf.register("array_sumD", array_sum(_:Seq[java.math.BigDecimal]))

sqlContext.sql(
  """SELECT array_sumD(array(
    |  CAST(5.0 AS DECIMAL(38,18)),
    |  CAST(1.0 AS DECIMAL(38,18)),
    |  CAST(2.0 AS DECIMAL(38,18))
    |)) as array_sum""".stripMargin).show

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，5 月前
查看次数：	13050 次
最近记录：	9 年，5 月前