小编Geo*_*los的帖子

在 PySpark DataFrame 上运行 sql 查询

我正在使用 Databricks,并且已经加载了一些数据表。

但是,我有一个复杂的 SQL 查询,我想对这些数据表进行操作,我想知道是否可以避免在 pyspark 中翻译它。

那可能吗?

举个例子:

在 SQL 中:

with table2 as (
   select column1, column1
   from database.table1
   where
         start_date <= DATE '2019-03-01' and
         end_date >= DATE '2019-03-31'            )
Run Code Online (Sandbox Code Playgroud)

在 pyspark 中,我已经table1加载了,但以下内容不起作用,因为它找不到table1.

query = "(
    select column1, column1
           from table1
               where
         start_date <= DATE '2019-03-01' and
         end_date >= DATE '2019-03-31'            )"
table2 = spark.sql(query)
Run Code Online (Sandbox Code Playgroud)

谢谢

apache-spark-sql

8
推荐指数
1
解决办法
4万
查看次数

plotnine - 在同一个图中有两个图并打印它的任何解决方法

我使用plotninein python绘制了两个图。我知道并不真正支持绘制子图(here)。我想知道是否有办法解决并在一个图中创建子图。

plotineplot.draw()想把它们做成图,然后用 matplotlib 读取,或者先将它们保存为 png,然后用 matplotlib 读取它们并将它们放在一起。但是,我对 matplotlib 不是很方便,到现在为止的每一次尝试都是徒劳的。

示例 plotnine 图:

from plotnine import data
from plotnine import *

plot1 = (ggplot(data.mtcars, aes('wt', 'mpg', color='factor(gear)'))
 + geom_point()
 + stat_smooth(method='lm')
 + facet_wrap('~gear'))
Run Code Online (Sandbox Code Playgroud)

任何帮助都会非常有帮助。

python matplotlib plotnine

5
推荐指数
2
解决办法
2858
查看次数

当颜色按行缩放时的热图

你好stackoverflowers!

由于标题表示我想制作热图,但颜色缩放应该跨越每行和彼此的个体.

以下示例将指出我想要的内容:

library(tidyverse)
library(data.table)
data_heat <- expand.grid(y = letters[seq( from = 1, to = 6 )],x = LETTERS[ seq( from = 1, to = 10 )]) %>% as.data.table()
data_heat %>% setkey(y)
data_heat[, fill_value := seq(from = 1,to =  nrow(data_heat))]


data_heat%>% ggplot(aes(x = x, y = y)) + 
  geom_tile(aes(fill = fill_value), colour = "black") + scale_fill_gradient(low = "green",
                                                                              high = "red") + 
  theme(axis.text.x = element_text(angle = 30, hjust = 1)) +    geom_text(aes(label = fill_value)) 
Run Code Online (Sandbox Code Playgroud)

这会产生:

基本热图

而我想要的是图表的右侧是红色的,因为每行有最大的值.

r heatmap ggplot2

4
推荐指数
1
解决办法
515
查看次数

R中的数据表很奇怪,列名混合在一起

所以我创造了这个变量,被称为mc_split_device该数据表称为内mc_with_devices。但是,如果键入,mc_with_devices$mc_split我将获得列的值,mc_split_device而我从未使用name创建任何变量mc_split

在此处输入图片说明

datatable r

3
推荐指数
2
解决办法
80
查看次数