我正在尝试使用 Helium 在 Apache Zeppelin 上安装一个额外的插件。Helium 下载这个包的安装命令如下:
com.github.eirslett.maven.plugins.frontend.lib.TaskRunnerException: 'yarn install --fetch-retries=2 --fetch-retry-factor=1 --fetch-retry-mintimeout=5000 --registry=https://registry.npmjs.com/ --https-proxy=http://SVC_Hxxxxxp:***@webguard.xxxxx.no:8080 --proxy=http://SVC_Hxxxop:***@webguard.xxxxx.no:8080' failed. (error code 1)
Run Code Online (Sandbox Code Playgroud)
安装的版本:
node -v
v8.1.1
npm -v
5.0.3
mvn -v
Apache Maven 3.3.9
Run Code Online (Sandbox Code Playgroud)
cmd 将如何识别它是 yarn 还是 yarn install ?
Apache Pig中一个非常常见的错误消息是:
错误1066:无法打开别名的迭代器
有几个问题提到了这个错误,但没有一个提供处理它的通用方法.因此这个问题:
当你收到错误1066时该怎么办:无法打开别名的迭代器?
我试图写一个简单的程序通过在Http模式下启动的thrift连接到HBase服务器.(集群是kerberized)但我总是得到'读零字节错误消息'
我已经在下面提到了链接,但这些示例仅在thrift服务器以二进制模式启动时才起作用(??) https://github.com/joshelser/hbase-thrift1-python-sasl/blob/master/get_row.py ,
我做了Klist和Kinit一切看起来很好,我也遵循了HDP文档,我的设置是正确的
当我运行以下命令时,我能够列出表格
hbase org.apache.hadoop.hbase.thrift.HttpDoAsClient host 9090 hbase true
任何对通过thrift http模式连接到HBase的示例代码的引用都非常感谢
谢谢
环境:
尝试执行以下脚本:
from pyspark.sql import SparkSession
from pyspark_llap import HiveWarehouseSession
# Create spark session
spark = SparkSession.builder.appName("LLAP Test - CLI").enableHiveSupport().getOrCreate()
# Create HWC session
hive = HiveWarehouseSession.session(spark).userPassword('hive','hive').build()
# Execute a query to read from Spark using HWC
hive.executeQuery("select * from wifi_table where partit='2019-12-02'").show(20)
Run Code Online (Sandbox Code Playgroud)
问题: 当使用spark-submit提交应用程序或使用pyspark shell与上述脚本(或任何使用HiveWarehouseSession执行查询的脚本)时,spark作业卡住,抛出异常:java.lang.RuntimeException:java .io.IOException:shadecurator.org.apache.curator.CuratorConnectionLossException:KeeperErrorCode = ConnectionLoss
执行的命令如下:
$ …Run Code Online (Sandbox Code Playgroud) 我们将HDP群集升级到3.1.1.3.0.1.0-187,并发现:
实际上我们看到:
org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database ... not found
Run Code Online (Sandbox Code Playgroud)
您能帮助我了解发生了什么以及如何解决吗?
更新:
组态:
(spark.sql.warehouse.dir,/ warehouse / tablespace / external / hive /)(spark.admin.acls,)(spark.yarn.dist.files,file:///opt/folder/config.yml,file :///opt/jdk1.8.0_172/jre/lib/security/cacerts)(spark.history.kerberos.keytab,/ etc / security / keytabs / spark.service.keytab)(spark.io.compression.lz4。 blockSize,128kb)(spark.executor.extraJavaOptions,-Djavax.net.ssl.trustStore = cacerts)(spark.history.fs.logDirectory,hdfs:/// spark2-history /)(spark.io.encryption.keygen。算法,HmacSHA1)(spark.sql.autoBroadcastJoinThreshold,26214400)(spark.eventLog.enabled,true)(spark.shuffle.service.enabled,true)(spark.driver.extraLibraryPath,/ usr / hdp / current / hadoop-client / lib / native:/ usr / hdp / current / hadoop-client / lib / native / Linux-amd64-64)(spark.ssl.keyStore,/ etc / security / serverKeys / server-keystore.jks)(spark.yarn .queue,默认)(spark.jars,文件:/opt/folder/component-assembly-0.1.0-SNAPSHOT.jar)(spark.ssl.enabled,true)(spark.sql.orc.filterPushdown,true)(spark.shuffle.unsafe.file.output.buffer, 5m)(spark.yarn.historyServer.address,master2.env.project:18481)(spark.ssl.trustStore,/ etc / security / clientKeys / all.jks)(spark.app.name,com.company.env。 component.MyClass)(spark.sql.hive.metastore.jars,/ usr / hdp / current …
使用 REST API 在 apache atlas 中添加实体之间的关系的正确方法是什么?查看REST API的文档,我发现很难说出某些字段的含义,哪些是必需的,哪些是必需的(以及如果没有输入会发生什么),或者默认值应该是什么(因为示例使用了什么似乎是占位符值(例如,what isprovenanceType或该propagateTags字段似乎需要某种枚举值,但从未指定有效选项))。
有人可以提供任何示例来说明实际/有效值中的情况吗?例如。如果已经将 2 个实体 E1 和 E2 添加到 Atlas 并希望在两者之间建立关系,则需要执行类似...
curl -X POST --header 'Content-Type: application/json;charset=UTF-8' --header 'Accept: application/json' -d '{<simplified json>}' 'https://atlas-server-hostname:21000/v2/relationship'
Run Code Online (Sandbox Code Playgroud)
试
[hph_etl@HW03 ~]$ curl -vv -u admin:admin -X POST --header 'Content-Type: application/json;charset=UTF-8' --header 'Accept: application/json' -d '{ \
"createTime": 1565135406, \
"createdBy": "hph_etl", \
"end1": { \
"guid": "2ddcda5b-2489-4636-a9ab-12b199c02422", \
"typeName": "hdfs_path" \
}, \
"end2": { \
"guid": "a33f45de-13d0-4a30-9df7-b0e02eb0dfd5", \
"typeName": "hdfs_path" …Run Code Online (Sandbox Code Playgroud) 我们有一个带有 3 个 kafka 代理的 HDP 集群(来自 hortonworks)
我们想运行 kafka 控制台消费者,以便从具有特定偏移量的主题中获取一条消息
/usr/hdp/current/kafka-broker/bin/kafka-console-consumer.sh --zookeeper zoo01:2181 --topic lopet.lo.pm--partition 0 --offset 34537263 --max-messages 1
Run Code Online (Sandbox Code Playgroud)
但我们得到以下信息:
我们错在哪里?
Using the ConsoleConsumer with old consumer is deprecated and will be removed in a future major release. Consider using the new consumer by passing [bootstrap-server] instead of [zookeeper].
Partition-offset based consumption is supported in the new consumer only.
Option Description
------ -----------
--blacklist <blacklist> Blacklist of topics to exclude from
consumption.
--bootstrap-server <server to connect REQUIRED (unless …Run Code Online (Sandbox Code Playgroud) 我在 HDP 3.1 中启动了 Spark Thrift Server。
我尝试通过直线连接到它:
beeline -u "jdbc:hive2://myhost.mybank.rus:10016/public"
我得到了错误:
19/10/10 00:17:08 [main]: ERROR jdbc.HiveConnection: Error opening session
org.apache.thrift.TApplicationException: Required field 'client_protocol' is unset! Struct:TOpenSessionReq(client_protocol:null, configuration:{set:hiveconf:
at
...
我只发现它需要 hive/beeline jar 的旧版本,但是如何配置它?
hdp ×8
apache-spark ×3
hive ×2
apache-atlas ×1
apache-kafka ×1
apache-pig ×1
beeline ×1
debugging ×1
hadoop ×1
hbase ×1
kerberos ×1
python ×1
thrift ×1
yarnpkg ×1