小编OTM*_*OTM的帖子

如何使用 HUE 在 Impala 查询中设置变量?

我需要在长查询中的多个位置添加参数。我想使用参数,因为我需要用不同的值替换多次运行查询。这非常麻烦,因为每当我需要更改过滤条件时,我都需要替换所有位置的文本。有没有办法通过 HUE 在 Impala 中设置变量?

初步研究表明,在使用 impala-shell 时这是可能的,但对于 HUE,我什么也没发现。

impala

5
推荐指数
1
解决办法
2284
查看次数

当指定存储级别时,在 pyspark2 中保留数据帧不起作用。我究竟做错了什么?

我试图在执行连接之前保留两个非常大的数据帧以解决“java.util.concurrent.TimeoutException:Futures timed out...”问题(参考:为什么连接因“java.util.concurrent.TimeoutException”而失败:期货在 [300 秒] 后超时”?)。

Persist() 单独可以工作,但是当我尝试指定存储级别时,我收到名称错误。

我尝试过以下方法:

df.persist(pyspark.StorageLevel.MEMORY_ONLY) 
NameError: name 'MEMORY_ONLY' is not defined

df.persist(StorageLevel.MEMORY_ONLY) 
NameError: name 'StorageLevel' is not defined

import org.apache.spark.storage.StorageLevel 
ImportError: No module named org.apache.spark.storage.StorageLevel
Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激。

apache-spark apache-spark-sql pyspark

2
推荐指数
1
解决办法
5893
查看次数

是否有针对“org.apache.spark.SparkException:Kryo序列化失败:缓冲区溢出。可用:0,必需:n”错误的解决方法?

我正在通过 Spark-Submit 运行 pyspark 作业,其中首先将两个大型镶木地板表连接在一起,然后再应用一些附加逻辑。提交后,所有任务都失败,日志显示以下内容:

Caused by: org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: n*. To avoid this, increase spark.kryoserializer.buffer.max value
Run Code Online (Sandbox Code Playgroud)

*n 只是一个变量,表示还需要多少内存。这个值取决于我设置的多少spark.kryoserializer.buffer.max

我已将此参数的值增加到 2047 mb,并且不再遇到错误,作业在 ApplicationMaster 作业跟踪器中显示为“完成”,但作业在控制台和纱线中仍然显示为“正在运行”。

正在运行的作业的上下文:

对于上下文,这就是我正在做的事情。我正在获取一个非常大的 URL 列表,并将它们加入到同一个列表中,并使用第二个 URL 字符串包含在第一个 URL 字符串中的匹配条件。例如:www.google.com 将匹配 www.google.com、www.google.com/1 和 www.google.com/1/2 URL_Hierarachy = URL_1.join(URL_2, URL_1.url1 == URL_2.url2. substr(URL_1.numone,URL_1.nchar_url1),'left') 其中 numone 和 nchar_url1 用于定义第一个 URL 的长度。这将产生比最初的 93M 更多的记录。

apache-spark apache-spark-sql pyspark

2
推荐指数
1
解决办法
4901
查看次数

标签 统计

apache-spark ×2

apache-spark-sql ×2

pyspark ×2

impala ×1