相关疑难解决方法(0)

使用Apache Spark查询多个Hive存储

我有一个spark应用程序,它将成功连接到hive并使用spark引擎查询hive表.

为了构建这个,我刚刚添加hive-site.xml到应用程序的类路径中,spark将读取hive-site.xml连接到它的Metastore.spark的邮件列表中提出了这种方法.

到现在为止还挺好.现在我想连接到两个配置单元存储,我不认为hive-site.xml在我的类路径中添加另一个将有所帮助.我提到了不少文章和火花邮件列表,但找不到任何人这样做.

有人可以建议我如何实现这一目标吗?

谢谢.

文件提到:

hive apache-spark spark-hive

28
推荐指数
1
解决办法
3001
查看次数

通过JDBC从RDBMS读取时分区为spark

我在集群模式下运行spark并通过JDBC从RDBMS读取数据.

根据Spark 文档,这些分区参数描述了在从多个worker并行读取时如何对表进行分区:

  • partitionColumn
  • lowerBound
  • upperBound
  • numPartitions

这些是可选参数.

如果我不指定这些,会发生什么:

  • 只有1名工人读取整个数据?
  • 如果它仍然并行读取,它如何分区数据?

partitioning jdbc apache-spark apache-spark-sql

9
推荐指数
1
解决办法
4536
查看次数

任务仅在 Spark 中的一个执行器上运行

我正在使用 Java 在 Spark 中运行以下代码。

代码

测试.java

package com.sample;

import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.functions;
import org.apache.spark.storage.StorageLevel;

import com.addition.AddTwoNumbers;

public class Test{

    private static final String APP_NAME = "Test";
    private static final String LOCAL = "local";
    private static final String MASTER_IP = "spark://10.180.181.26:7077";

    public static void main(String[] args) {

        SparkConf conf = new SparkConf().setAppName(APP_NAME).setMaster(MASTER_IP);
        String connection = "jdbc:oracle:thin:test/test@//xyz00aie.in.oracle.com:1521/PDX2600N";
        // Create Spark Context
        SparkContext context = new SparkContext(conf);
        // Create Spark Session

        SparkSession sparkSession = …
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-2.0 spark-submit

6
推荐指数
1
解决办法
1万
查看次数