我正在使用 Databricks,并且已经加载了一些数据表。
但是,我有一个复杂的 SQL 查询,我想对这些数据表进行操作,我想知道是否可以避免在 pyspark 中翻译它。
那可能吗?
举个例子:
在 SQL 中:
with table2 as (
select column1, column1
from database.table1
where
start_date <= DATE '2019-03-01' and
end_date >= DATE '2019-03-31' )
Run Code Online (Sandbox Code Playgroud)
在 pyspark 中,我已经table1加载了,但以下内容不起作用,因为它找不到table1.
query = "(
select column1, column1
from table1
where
start_date <= DATE '2019-03-01' and
end_date >= DATE '2019-03-31' )"
table2 = spark.sql(query)
Run Code Online (Sandbox Code Playgroud)
谢谢
我使用plotninein python绘制了两个图。我知道并不真正支持绘制子图(here)。我想知道是否有办法解决并在一个图中创建子图。
我plotineplot.draw()想把它们做成图,然后用 matplotlib 读取,或者先将它们保存为 png,然后用 matplotlib 读取它们并将它们放在一起。但是,我对 matplotlib 不是很方便,到现在为止的每一次尝试都是徒劳的。
示例 plotnine 图:
from plotnine import data
from plotnine import *
plot1 = (ggplot(data.mtcars, aes('wt', 'mpg', color='factor(gear)'))
+ geom_point()
+ stat_smooth(method='lm')
+ facet_wrap('~gear'))
Run Code Online (Sandbox Code Playgroud)
任何帮助都会非常有帮助。
你好stackoverflowers!
由于标题表示我想制作热图,但颜色缩放应该跨越每行和彼此的个体.
以下示例将指出我想要的内容:
library(tidyverse)
library(data.table)
data_heat <- expand.grid(y = letters[seq( from = 1, to = 6 )],x = LETTERS[ seq( from = 1, to = 10 )]) %>% as.data.table()
data_heat %>% setkey(y)
data_heat[, fill_value := seq(from = 1,to = nrow(data_heat))]
data_heat%>% ggplot(aes(x = x, y = y)) +
geom_tile(aes(fill = fill_value), colour = "black") + scale_fill_gradient(low = "green",
high = "red") +
theme(axis.text.x = element_text(angle = 30, hjust = 1)) + geom_text(aes(label = fill_value))
Run Code Online (Sandbox Code Playgroud)
这会产生:
而我想要的是图表的右侧是红色的,因为每行有最大的值.
所以我创造了这个变量,被称为mc_split_device该数据表称为内mc_with_devices。但是,如果键入,mc_with_devices$mc_split我将获得列的值,mc_split_device而我从未使用name创建任何变量mc_split。