标签: hdp

纱线和纱线安装有什么区别?

我正在尝试使用 Helium 在 Apache Zeppelin 上安装一个额外的插件。Helium 下载这个包的安装命令如下:

com.github.eirslett.maven.plugins.frontend.lib.TaskRunnerException: 'yarn install --fetch-retries=2 --fetch-retry-factor=1 --fetch-retry-mintimeout=5000 --registry=https://registry.npmjs.com/ --https-proxy=http://SVC_Hxxxxxp:***@webguard.xxxxx.no:8080 --proxy=http://SVC_Hxxxop:***@webguard.xxxxx.no:8080' failed. (error code 1)
Run Code Online (Sandbox Code Playgroud)

安装的版本:

node -v
v8.1.1


npm -v
5.0.3

mvn -v
Apache Maven 3.3.9
Run Code Online (Sandbox Code Playgroud)

cmd 将如何识别它是 yarn 还是 yarn install ?

apache-zeppelin yarnpkg hdp

19
推荐指数
2
解决办法
8094
查看次数

错误1066:无法在Pig,Generic解决方案中打开别名的迭代器

Apache Pig中一个非常常见的错误消息是:

错误1066:无法打开别名的迭代器

有几个问题提到了这个错误,但没有一个提供处理它的通用方法.因此这个问题:

当你收到错误1066时该怎么办:无法打开别名的迭代器?

debugging apache-pig hortonworks-data-platform hdp

8
推荐指数
1
解决办法
9909
查看次数

在Http模式下通过thrift服务器连接到HBase的Python程序

我试图写一个简单的程序通过在Http模式下启动的thrift连接到HBase服务器.(集群是kerberized)但我总是得到'读零字节错误消息'

我已经在下面提到了链接,但这些示例仅在thrift服务器以二进制模式启动时才起作用(??) https://github.com/joshelser/hbase-thrift1-python-sasl/blob/master/get_row.py ,

我做了Klist和Kinit一切看起来很好,我也遵循了HDP文档,我的设置是正确的

https://community.hortonworks.com/articles/87655/start-and-test-hbase-thrift-server-in-a-kerberised.html

当我运行以下命令时,我能够列出表格

hbase org.apache.hadoop.hbase.thrift.HttpDoAsClient host 9090 hbase true

任何对通过thrift http模式连接到HBase的示例代码的引用都非常感谢

谢谢

python hbase kerberos thrift hdp

8
推荐指数
1
解决办法
354
查看次数

HDP3.1.4 - 使用 Spark-submit 和 pyspark shell 时带有 Hive Warehouse Connector 的 Spark2 错误:KeeperErrorCode = ConnectionLoss

环境:

  • HDP 3.1.4 -配置并测试 Hive 服务器 2 - 测试并工作
  • Hive 服务器 2 LLAP -根据文档进行测试并运行 Spark,配置为使用 Hive Warehouse Connector (HWC)
  • Apache Zeppelin -配置为使用 HWC 的 Spark2 解释器

尝试执行以下脚本:

from pyspark.sql import SparkSession
from pyspark_llap import HiveWarehouseSession

# Create spark session
spark = SparkSession.builder.appName("LLAP Test - CLI").enableHiveSupport().getOrCreate()

# Create HWC session
hive = HiveWarehouseSession.session(spark).userPassword('hive','hive').build()

# Execute a query to read from Spark using HWC
hive.executeQuery("select * from wifi_table where partit='2019-12-02'").show(20)

Run Code Online (Sandbox Code Playgroud)

问题: 当使用spark-submit提交应用程序或使用pyspark shell与上述脚本(或任何使用HiveWarehouseSession执行查询的脚本)时,spark作业卡住,抛出异常:java.lang.RuntimeException:java .io.IOException:shadecurator.org.apache.curator.CuratorConnectionLossException:KeeperErrorCode = ConnectionLoss

执行的命令如下:

$ …
Run Code Online (Sandbox Code Playgroud)

hadoop hive apache-spark apache-zookeeper hdp

6
推荐指数
0
解决办法
1959
查看次数

带有Hive Metastore 3.1.0的Apache Spark 2.3.1

我们将HDP群集升级到3.1.1.3.0.1.0-187,并发现:

  1. Hive具有新的Metastore位置
  2. Spark看不到Hive数据库

实际上我们看到:

org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database ... not found
Run Code Online (Sandbox Code Playgroud)

您能帮助我了解发生了什么以及如何解决吗?

更新:

组态:

(spark.sql.warehouse.dir,/ warehouse / tablespace / external / hive /)(spark.admin.acls,)(spark.yarn.dist.files,file:///opt/folder/config.yml,file :///opt/jdk1.8.0_172/jre/lib/security/cacerts)(spark.history.kerberos.keytab,/ etc / security / keytabs / spark.service.keytab)(spark.io.compression.lz4。 blockSize,128kb)(spark.executor.extraJavaOptions,-Djavax.net.ssl.trustStore = cacerts)(spark.history.fs.logDirectory,hdfs:/// spark2-history /)(spark.io.encryption.keygen。算法,HmacSHA1)(spark.sql.autoBroadcastJoinThreshold,26214400)(spark.eventLog.enabled,true)(spark.shuffle.service.enabled,true)(spark.driver.extraLibraryPath,/ usr / hdp / current / hadoop-client / lib / native:/ usr / hdp / current / hadoop-client / lib / native / Linux-amd64-64)(spark.ssl.keyStore,/ etc / security / serverKeys / server-keystore.jks)(spark.yarn .queue,默认)(spark.jars,文件:/opt/folder/component-assembly-0.1.0-SNAPSHOT.jar)(spark.ssl.enabled,true)(spark.sql.orc.filterPushdown,true)(spark.shuffle.unsafe.file.output.buffer, 5m)(spark.yarn.historyServer.address,master2.env.project:18481)(spark.ssl.trustStore,/ etc / security / clientKeys / all.jks)(spark.app.name,com.company.env。 component.MyClass)(spark.sql.hive.metastore.jars,/ usr / hdp / current …

hive apache-spark apache-spark-sql hive-metastore hdp

4
推荐指数
1
解决办法
2798
查看次数

添加 Atlas 实体之间关系的简单示例?

使用 REST API 在 apache atlas 中添加实体之间的关系的正确方法是什么?查看REST API的文档,我发现很难说出某些字段的含义,哪些是必需的,哪些是必需的(以及如果没有输入会发生什么),或者默认值应该是什么(因为示例使用了什么似乎是占位符值(例如,what isprovenanceType或该propagateTags字段似乎需要某种枚举值,但从未指定有效选项))。

有人可以提供任何示例来说明实际/有效值中的情况吗?例如。如果已经将 2 个实体 E1 和 E2 添加到 Atlas 并希望在两者之间建立关系,则需要执行类似...

curl -X POST --header 'Content-Type: application/json;charset=UTF-8' --header 'Accept: application/json' -d '{<simplified json>}' 'https://atlas-server-hostname:21000/v2/relationship'
Run Code Online (Sandbox Code Playgroud)

[hph_etl@HW03 ~]$ curl -vv -u admin:admin -X POST --header 'Content-Type: application/json;charset=UTF-8' --header 'Accept: application/json' -d '{ \
   "createTime": 1565135406, \
   "createdBy": "hph_etl", \
   "end1": { \
     "guid": "2ddcda5b-2489-4636-a9ab-12b199c02422", \
     "typeName": "hdfs_path" \
   }, \
   "end2": { \
     "guid": "a33f45de-13d0-4a30-9df7-b0e02eb0dfd5", \
     "typeName": "hdfs_path" …
Run Code Online (Sandbox Code Playgroud)

apache-atlas hdp

4
推荐指数
1
解决办法
2482
查看次数

如何从具有特定偏移量的 kafka 主题获取消息

我们有一个带有 3 个 kafka 代理的 HDP 集群(来自 hortonworks)

我们想运行 kafka 控制台消费者,以便从具有特定偏移量的主题中获取一条消息

/usr/hdp/current/kafka-broker/bin/kafka-console-consumer.sh --zookeeper zoo01:2181  --topic lopet.lo.pm--partition 0 --offset 34537263 --max-messages 1
Run Code Online (Sandbox Code Playgroud)

但我们得到以下信息:

我们错在哪里?

Using the ConsoleConsumer with old consumer is deprecated and will be removed in a future major release. Consider using the new consumer by passing [bootstrap-server] instead of [zookeeper].
Partition-offset based consumption is supported in the new consumer only.
Option                                   Description
------                                   -----------
--blacklist <blacklist>                  Blacklist of topics to exclude from
                                           consumption.
--bootstrap-server <server to connect    REQUIRED (unless …
Run Code Online (Sandbox Code Playgroud)

apache-kafka kafka-consumer-api hdp

2
推荐指数
1
解决办法
7849
查看次数

Spark Thrift beeline:必填字段“client_protocol”未设置

我在 HDP 3.1 中启动了 Spark Thrift Server。

我尝试通过直线连接到它: beeline -u "jdbc:hive2://myhost.mybank.rus:10016/public"

我得到了错误:

19/10/10 00:17:08 [main]: ERROR jdbc.HiveConnection: Error opening session org.apache.thrift.TApplicationException: Required field 'client_protocol' is unset! Struct:TOpenSessionReq(client_protocol:null, configuration:{set:hiveconf: at ...

我只发现它需要 hive/beeline jar 的旧版本,但是如何配置它?

apache-spark beeline hdp

1
推荐指数
1
解决办法
1310
查看次数