小编pet*_*dis的帖子

Spark + s3 - 错误 - java.lang.ClassNotFoundException:找不到类 org.apache.hadoop.fs.s3a.S3AFileSystem

我有一个 spark ec2 集群,我正在从 Zeppelin 笔记本提交 pyspark 程序。我已经加载了 hadoop-aws-2.7.3.jar 和 aws-java-sdk-1.11.179.jar 并将它们放在 spark 实例的 /opt/spark/jars 目录中。我得到一个 java.lang.NoClassDefFoundError: com/amazonaws/AmazonServiceException

为什么火花没有看到罐子?我是否必须在所有从站中进行 jars 并为主站和从站指定 spark-defaults.conf ?是否需要在 zeppelin 中配置一些东西来识别新的 jar 文件?

我已将 jar 文件 /opt/spark/jars 放在 spark master 上。我创建了一个 spark-defaults.conf 并添加了这些行

spark.hadoop.fs.s3a.access.key     [ACCESS KEY]
spark.hadoop.fs.s3a.secret.key     [SECRET KEY]
spark.hadoop.fs.s3a.impl           org.apache.hadoop.fs.s3a.S3AFileSystem
spark.driver.extraClassPath        /opt/spark/jars/hadoop-aws-2.7.3.jar:/opt/spark/jars/aws-java-sdk-1.11.179.jar
Run Code Online (Sandbox Code Playgroud)

我让齐柏林飞艇解释器向火花大师发送火花提交。

我也将罐子放在奴隶的 /opt/spark/jars 中,但没有创建 spark-deafults.conf。

%spark.pyspark

#importing necessary libaries
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import StringType
from pyspark import SQLContext
from itertools import islice …
Run Code Online (Sandbox Code Playgroud)

amazon-s3 apache-spark pyspark apache-zeppelin

16
推荐指数
3
解决办法
3万
查看次数

Datavault - 硬规则 (rawvault) 与软规则 (businessvault)

我有一个关于硬规则(rawVault)和软规则(业务规则)的问题。

\n\n

我的例子是一个源系统有一个名为 Pets 的非规范化表,其中 Pets 包含猫、狗和鸟,它们通过类型代码进行区分(1 \xe2\x80\x93 cat,2 \xe2\x80\x93 dogs, 3 \xe2\x80\x93 鸟)。

\n\n

我的问题是关于将数据加载到 Rawvault 与 Business Vault 时的硬规则与软规则。加载Pets表时,您可以在rawvault中创建h_cat、h_dog和h_bird集线器,并根据类型代码1过滤源表pets到h_cat,类型代码2到h_dog,类型代码3到h_bird吗?这是硬规则还是软规则?

\n\n

或者

\n\n

当基于类型代码过滤数据时,我们是否应该在 rawvault 中创建 h_pet 中心,使数据尽可能接近源,在 Businessvault 中创建 h_cat、h_dog 和 h_bird,因为这将被归类为软规则?

\n

data-vault

3
推荐指数
1
解决办法
2912
查看次数