小编OTM*_*OTM的帖子

如何使用 HUE 在 Impala 查询中设置变量？

我需要在长查询中的多个位置添加参数。我想使用参数，因为我需要用不同的值替换多次运行查询。这非常麻烦，因为每当我需要更改过滤条件时，我都需要替换所有位置的文本。有没有办法通过 HUE 在 Impala 中设置变量？

初步研究表明，在使用 impala-shell 时这是可能的，但对于 HUE，我什么也没发现。

impala

OTM*_*OTM

lucky-day

5
推荐指数

1
解决办法

2284
查看次数

当指定存储级别时，在 pyspark2 中保留数据帧不起作用。我究竟做错了什么？

我试图在执行连接之前保留两个非常大的数据帧以解决“java.util.concurrent.TimeoutException：Futures timed out...”问题（参考：为什么连接因“java.util.concurrent.TimeoutException”而失败：期货在 [300 秒] 后超时”？）。

Persist() 单独可以工作，但是当我尝试指定存储级别时，我收到名称错误。

我尝试过以下方法：

df.persist(pyspark.StorageLevel.MEMORY_ONLY) 
NameError: name 'MEMORY_ONLY' is not defined

df.persist(StorageLevel.MEMORY_ONLY) 
NameError: name 'StorageLevel' is not defined

import org.apache.spark.storage.StorageLevel 
ImportError: No module named org.apache.spark.storage.StorageLevel

Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激。

apache-spark apache-spark-sql pyspark

OTM*_*OTM

2019 11-22

2
推荐指数

1
解决办法

5893
查看次数

是否有针对“org.apache.spark.SparkException：Kryo序列化失败：缓冲区溢出。可用：0，必需：n”错误的解决方法？

我正在通过 Spark-Submit 运行 pyspark 作业，其中首先将两个大型镶木地板表连接在一起，然后再应用一些附加逻辑。提交后，所有任务都失败，日志显示以下内容：

Caused by: org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: n*. To avoid this, increase spark.kryoserializer.buffer.max value

Run Code Online (Sandbox Code Playgroud)

*n 只是一个变量，表示还需要多少内存。这个值取决于我设置的多少spark.kryoserializer.buffer.max。

我已将此参数的值增加到 2047 mb，并且不再遇到错误，作业在 ApplicationMaster 作业跟踪器中显示为“完成”，但作业在控制台和纱线中仍然显示为“正在运行”。

正在运行的作业的上下文：

对于上下文，这就是我正在做的事情。我正在获取一个非常大的 URL 列表，并将它们加入到同一个列表中，并使用第二个 URL 字符串包含在第一个 URL 字符串中的匹配条件。例如：www.google.com 将匹配 www.google.com、www.google.com/1 和 www.google.com/1/2 URL_Hierarachy = URL_1.join(URL_2, URL_1.url1 == URL_2.url2. substr(URL_1.numone,URL_1.nchar_url1),'left') 其中 numone 和 nchar_url1 用于定义第一个 URL 的长度。这将产生比最初的 93M 更多的记录。

apache-spark apache-spark-sql pyspark

OTM*_*OTM

2020 01-18

2
推荐指数

1
解决办法

4901
查看次数