我有一个spark应用程序,它将成功连接到hive并使用spark引擎查询hive表.
为了构建这个,我刚刚添加hive-site.xml到应用程序的类路径中,spark将读取hive-site.xml连接到它的Metastore.spark的邮件列表中提出了这种方法.
到现在为止还挺好.现在我想连接到两个配置单元存储,我不认为hive-site.xml在我的类路径中添加另一个将有所帮助.我提到了不少文章和火花邮件列表,但找不到任何人这样做.
有人可以建议我如何实现这一目标吗?
谢谢.
文件提到:
我在集群模式下运行spark并通过JDBC从RDBMS读取数据.
根据Spark 文档,这些分区参数描述了在从多个worker并行读取时如何对表进行分区:
partitionColumnlowerBoundupperBoundnumPartitions这些是可选参数.
如果我不指定这些,会发生什么:
我正在使用 Java 在 Spark 中运行以下代码。
代码
测试.java
package com.sample;
import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.functions;
import org.apache.spark.storage.StorageLevel;
import com.addition.AddTwoNumbers;
public class Test{
private static final String APP_NAME = "Test";
private static final String LOCAL = "local";
private static final String MASTER_IP = "spark://10.180.181.26:7077";
public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName(APP_NAME).setMaster(MASTER_IP);
String connection = "jdbc:oracle:thin:test/test@//xyz00aie.in.oracle.com:1521/PDX2600N";
// Create Spark Context
SparkContext context = new SparkContext(conf);
// Create Spark Session
SparkSession sparkSession = …Run Code Online (Sandbox Code Playgroud)