小编Geo*_*los的帖子

在 PySpark DataFrame 上运行 sql 查询

我正在使用 Databricks，并且已经加载了一些数据表。

但是，我有一个复杂的 SQL 查询，我想对这些数据表进行操作，我想知道是否可以避免在 pyspark 中翻译它。

那可能吗？

举个例子：

在 SQL 中：

with table2 as (
   select column1, column1
   from database.table1
   where
         start_date <= DATE '2019-03-01' and
         end_date >= DATE '2019-03-31'            )

Run Code Online (Sandbox Code Playgroud)

在 pyspark 中，我已经table1加载了，但以下内容不起作用，因为它找不到table1.

query = "(
    select column1, column1
           from table1
               where
         start_date <= DATE '2019-03-01' and
         end_date >= DATE '2019-03-31'            )"
table2 = spark.sql(query)

Run Code Online (Sandbox Code Playgroud)

谢谢

apache-spark-sql

Geo*_*los

2019 08-07

8
推荐指数

1
解决办法

4万
查看次数

plotnine - 在同一个图中有两个图并打印它的任何解决方法

我使用plotninein python绘制了两个图。我知道并不真正支持绘制子图（here）。我想知道是否有办法解决并在一个图中创建子图。

我plotineplot.draw()想把它们做成图，然后用 matplotlib 读取，或者先将它们保存为 png，然后用 matplotlib 读取它们并将它们放在一起。但是，我对 matplotlib 不是很方便，到现在为止的每一次尝试都是徒劳的。

示例 plotnine 图：

from plotnine import data
from plotnine import *

plot1 = (ggplot(data.mtcars, aes('wt', 'mpg', color='factor(gear)'))
 + geom_point()
 + stat_smooth(method='lm')
 + facet_wrap('~gear'))

Run Code Online (Sandbox Code Playgroud)

任何帮助都会非常有帮助。

python matplotlib plotnine

Geo*_*los

2018 09-14

5
推荐指数

2
解决办法

2858
查看次数

当颜色按行缩放时的热图

你好stackoverflowers!

由于标题表示我想制作热图,但颜色缩放应该跨越每行和彼此的个体.

以下示例将指出我想要的内容:

library(tidyverse)
library(data.table)
data_heat <- expand.grid(y = letters[seq( from = 1, to = 6 )],x = LETTERS[ seq( from = 1, to = 10 )]) %>% as.data.table()
data_heat %>% setkey(y)
data_heat[, fill_value := seq(from = 1,to =  nrow(data_heat))]


data_heat%>% ggplot(aes(x = x, y = y)) + 
  geom_tile(aes(fill = fill_value), colour = "black") + scale_fill_gradient(low = "green",
                                                                              high = "red") + 
  theme(axis.text.x = element_text(angle = 30, hjust = 1)) +    geom_text(aes(label = fill_value))

Run Code Online (Sandbox Code Playgroud)

这会产生: