标签: hdp

纱线和纱线安装有什么区别？

我正在尝试使用 Helium 在 Apache Zeppelin 上安装一个额外的插件。Helium 下载这个包的安装命令如下：

com.github.eirslett.maven.plugins.frontend.lib.TaskRunnerException: 'yarn install --fetch-retries=2 --fetch-retry-factor=1 --fetch-retry-mintimeout=5000 --registry=https://registry.npmjs.com/ --https-proxy=http://SVC_Hxxxxxp:***@webguard.xxxxx.no:8080 --proxy=http://SVC_Hxxxop:***@webguard.xxxxx.no:8080' failed. (error code 1)

Run Code Online (Sandbox Code Playgroud)

安装的版本：

node -v
v8.1.1


npm -v
5.0.3

mvn -v
Apache Maven 3.3.9

Run Code Online (Sandbox Code Playgroud)

cmd 将如何识别它是 yarn 还是 yarn install ？

apache-zeppelin yarnpkg hdp

gni*_*sh9

2019 12-15

19
推荐指数

2
解决办法

8094
查看次数

错误1066:无法在Pig,Generic解决方案中打开别名的迭代器

Apache Pig中一个非常常见的错误消息是:

错误1066:无法打开别名的迭代器

有几个问题提到了这个错误,但没有一个提供处理它的通用方法.因此这个问题:

当你收到错误1066时该怎么办:无法打开别名的迭代器？

debugging apache-pig hortonworks-data-platform hdp

Den*_*din

2019 04-12

8
推荐指数

1
解决办法

9909
查看次数

在Http模式下通过thrift服务器连接到HBase的Python程序

我试图写一个简单的程序通过在Http模式下启动的thrift连接到HBase服务器.(集群是kerberized)但我总是得到'读零字节错误消息'

我已经在下面提到了链接,但这些示例仅在thrift服务器以二进制模式启动时才起作用(??) https://github.com/joshelser/hbase-thrift1-python-sasl/blob/master/get_row.py ,

我做了Klist和Kinit一切看起来很好,我也遵循了HDP文档,我的设置是正确的

https://community.hortonworks.com/articles/87655/start-and-test-hbase-thrift-server-in-a-kerberised.html

当我运行以下命令时,我能够列出表格

hbase org.apache.hadoop.hbase.thrift.HttpDoAsClient host 9090 hbase true

任何对通过thrift http模式连接到HBase的示例代码的引用都非常感谢

谢谢

python hbase kerberos thrift hdp

Sur*_*nti

2018 09-11

8
推荐指数

1
解决办法

354
查看次数

HDP3.1.4 - 使用 Spark-submit 和 pyspark shell 时带有 Hive Warehouse Connector 的 Spark2 错误：KeeperErrorCode = ConnectionLoss

环境：

HDP 3.1.4 -配置并测试 Hive 服务器 2 - 测试并工作
Hive 服务器 2 LLAP -根据文档进行测试并运行 Spark，配置为使用 Hive Warehouse Connector (HWC)
Apache Zeppelin -配置为使用 HWC 的 Spark2 解释器

尝试执行以下脚本：

from pyspark.sql import SparkSession
from pyspark_llap import HiveWarehouseSession

# Create spark session
spark = SparkSession.builder.appName("LLAP Test - CLI").enableHiveSupport().getOrCreate()

# Create HWC session
hive = HiveWarehouseSession.session(spark).userPassword('hive','hive').build()

# Execute a query to read from Spark using HWC
hive.executeQuery("select * from wifi_table where partit='2019-12-02'").show(20)

Run Code Online (Sandbox Code Playgroud)

问题： 当使用spark-submit提交应用程序或使用pyspark shell与上述脚本（或任何使用HiveWarehouseSession执行查询的脚本）时，spark作业卡住，抛出异常：java.lang.RuntimeException：java .io.IOException：shadecurator.org.apache.curator.CuratorConnectionLossException：KeeperErrorCode = ConnectionLoss

执行的命令如下：

$ …

Run Code Online (Sandbox Code Playgroud)

hadoop hive apache-spark apache-zookeeper hdp

sou*_*rvo

lucky-day

6
推荐指数

0
解决办法

1959
查看次数

带有Hive Metastore 3.1.0的Apache Spark 2.3.1

我们将HDP群集升级到3.1.1.3.0.1.0-187，并发现：

Hive具有新的Metastore位置
Spark看不到Hive数据库

实际上我们看到：

org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database ... not found

Run Code Online (Sandbox Code Playgroud)

您能帮助我了解发生了什么以及如何解决吗？

更新：

组态：

（spark.sql.warehouse.dir，/ warehouse / tablespace / external / hive /）（spark.admin.acls，）（spark.yarn.dist.files，file：///opt/folder/config.yml,file ：///opt/jdk1.8.0_172/jre/lib/security/cacerts）（spark.history.kerberos.keytab，/ etc / security / keytabs / spark.service.keytab）（spark.io.compression.lz4。 blockSize，128kb）（spark.executor.extraJavaOptions，-Djavax.net.ssl.trustStore = cacerts）（spark.history.fs.logDirectory，hdfs：/// spark2-history /）（spark.io.encryption.keygen。算法，HmacSHA1）（spark.sql.autoBroadcastJoinThreshold，26214400）（spark.eventLog.enabled，true）（spark.shuffle.service.enabled，true）（spark.driver.extraLibraryPath，/ usr / hdp / current / hadoop-client / lib / native：/ usr / hdp / current / hadoop-client / lib / native / Linux-amd64-64）（spark.ssl.keyStore，/ etc / security / serverKeys / server-keystore.jks）（spark.yarn .queue，默认）（spark.jars，文件：/opt/folder/component-assembly-0.1.0-SNAPSHOT.jar）（spark.ssl.enabled，true）（spark.sql.orc.filterPushdown，true）（spark.shuffle.unsafe.file.output.buffer， 5m）（spark.yarn.historyServer.address，master2.env.project：18481）（spark.ssl.trustStore，/ etc / security / clientKeys / all.jks）（spark.app.name，com.company.env。 component.MyClass）（spark.sql.hive.metastore.jars，/ usr / hdp / current …

hive apache-spark apache-spark-sql hive-metastore hdp

Eug*_*kin

2018 10-27

4
推荐指数

1
解决办法

2798
查看次数

添加 Atlas 实体之间关系的简单示例？

使用 REST API 在 apache atlas 中添加实体之间的关系的正确方法是什么？查看REST API的文档，我发现很难说出某些字段的含义，哪些是必需的，哪些是必需的（以及如果没有输入会发生什么），或者默认值应该是什么（因为示例使用了什么似乎是占位符值（例如，what isprovenanceType或该propagateTags字段似乎需要某种枚举值，但从未指定有效选项））。

有人可以提供任何示例来说明实际/有效值中的情况吗？例如。如果已经将 2 个实体 E1 和 E2 添加到 Atlas 并希望在两者之间建立关系，则需要执行类似...

curl -X POST --header 'Content-Type: application/json;charset=UTF-8' --header 'Accept: application/json' -d '{<simplified json>}' 'https://atlas-server-hostname:21000/v2/relationship'

Run Code Online (Sandbox Code Playgroud)

试

[hph_etl@HW03 ~]$ curl -vv -u admin:admin -X POST --header 'Content-Type: application/json;charset=UTF-8' --header 'Accept: application/json' -d '{ \
   "createTime": 1565135406, \
   "createdBy": "hph_etl", \
   "end1": { \
     "guid": "2ddcda5b-2489-4636-a9ab-12b199c02422", \
     "typeName": "hdfs_path" \
   }, \
   "end2": { \
     "guid": "a33f45de-13d0-4a30-9df7-b0e02eb0dfd5", \
     "typeName": "hdfs_path" …

Run Code Online (Sandbox Code Playgroud)

apache-atlas hdp

lam*_*ter

2019 08-13

4
推荐指数

1
解决办法

2482
查看次数

如何从具有特定偏移量的 kafka 主题获取消息

我们有一个带有 3 个 kafka 代理的 HDP 集群（来自 hortonworks）

我们想运行 kafka 控制台消费者，以便从具有特定偏移量的主题中获取一条消息

/usr/hdp/current/kafka-broker/bin/kafka-console-consumer.sh --zookeeper zoo01:2181  --topic lopet.lo.pm--partition 0 --offset 34537263 --max-messages 1

Run Code Online (Sandbox Code Playgroud)

但我们得到以下信息：

我们错在哪里？

Using the ConsoleConsumer with old consumer is deprecated and will be removed in a future major release. Consider using the new consumer by passing [bootstrap-server] instead of [zookeeper].
Partition-offset based consumption is supported in the new consumer only.
Option                                   Description
------                                   -----------
--blacklist <blacklist>                  Blacklist of topics to exclude from
                                           consumption.
--bootstrap-server <server to connect    REQUIRED (unless …

Run Code Online (Sandbox Code Playgroud)

apache-kafka kafka-consumer-api hdp

Jud*_*udy

2020 04-10

2
推荐指数

1
解决办法

7849
查看次数

Spark Thrift beeline：必填字段“client_protocol”未设置

我在 HDP 3.1 中启动了 Spark Thrift Server。

我尝试通过直线连接到它： beeline -u "jdbc:hive2://myhost.mybank.rus:10016/public"

我得到了错误：

19/10/10 00:17:08 [main]: ERROR jdbc.HiveConnection: Error opening session org.apache.thrift.TApplicationException: Required field 'client_protocol' is unset! Struct:TOpenSessionReq(client_protocol:null, configuration:{set:hiveconf: at ...

我只发现它需要 hive/beeline jar 的旧版本，但是如何配置它？

apache-spark beeline hdp

Pav*_*vel

lucky-day

1
推荐指数

1
解决办法

1310
查看次数