小编Lev*_*Lev的帖子

具有复杂输入参数的Spark SQL UDF

我正在尝试将UDF与输入类型Array of struct一起使用.我有以下数据结构,这只是更大结构的相关部分

|--investments: array (nullable = true)
    |    |-- element: struct (containsNull = true)
    |    |    |-- funding_round: struct (nullable = true)
    |    |    |    |-- company: struct (nullable = true)
    |    |    |    |    |-- name: string (nullable = true)
    |    |    |    |    |-- permalink: string (nullable = true)
    |    |    |    |-- funded_day: long (nullable = true)
    |    |    |    |-- funded_month: long (nullable = true)
    |    |    |    |-- funded_year: long (nullable = true)
    | …
Run Code Online (Sandbox Code Playgroud)

user-defined-functions dataframe apache-spark apache-spark-sql

5
推荐指数
1
解决办法
5300
查看次数

Spark无法看到hive外部表

我是Spark和AWS的noobie.

我在AWS中有一个DynamoDB表.我在带有hive的EMR上创建了一个Spark集群.使用hive shell,我创建了外部表"RawData"以连接到DynamoDB.

现在,当我使用DynamoDB依赖jars启动spark-shell时,--jars /usr/share/aws/emr/ddb/lib/emr-ddb-hive.jar,/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar 我可以使用HiveContext 查询表"RawData"并获取结果.但是当我使用spark-submit提交我的Spark程序时,我在终端中看到一些spark异常,并在日志中发现:" org.apache.spark.sql.AnalysisException:没有这样的表RawData ".

这就是我创建集群的方式: aws emr create-cluster --name MyCluster --release-label emr-4.0.0 --applications Name=Spark Name=Hive ...

请告诉我我做错了什么.列夫

hadoop hive amazon-web-services emr apache-spark

0
推荐指数
1
解决办法
1402
查看次数