小编Ali*_*Deg的帖子

如果列不包含字符串,Pyspark 过滤数据框

我希望以前没有人问过,至少我找不到。我试图排除键列不包含“sd”值的行。下面是它包含时的工作示例。

values = [("sd123","2"),("kd123","1")] 
columns = ['Key', 'V1']
df2 = spark.createDataFrame(values, columns)

df2.where(F.col('Key').contains('sd')).show()
Run Code Online (Sandbox Code Playgroud)

如何做相反的事情?

python apache-spark apache-spark-sql pyspark

17
推荐指数
1
解决办法
3万
查看次数

在大查询中重建从长到长(标准SQL)

不幸的是,在BQ中重塑它并不像在R中那么容易,我无法导出这个项目的数据.

这是输入

date    country A             B         C      D
20170928    CH  3000.3        121       13     3200
20170929    CH  2800.31       137       23     1614.31
Run Code Online (Sandbox Code Playgroud)

预期产出

date    country Metric  Value  
20170928    CH  A       3000.3  
20170928    CH  B       121     
20170928    CH  C       13     
20170928    CH  D       3200
20170929    CH  A       2800.31 
20170929    CH  B       137       
20170929    CH  C       23     
20170929    CH  D       1614.31
Run Code Online (Sandbox Code Playgroud)

我的表还有更多的列和行(但我假设需要很多手册)

sql google-bigquery

7
推荐指数
1
解决办法
1321
查看次数

ggplot2道奇重叠 - 保留每个元素的宽度

希望它很容易理解.它与此处的示例基本相同.

在此输入图像描述

运用

ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) +
   geom_bar(position = position_dodge(preserve = "single"))
Run Code Online (Sandbox Code Playgroud)

但是我得到Error in position_dodge(preserve = "single") : unused argument (preserve = "single")/.ggplot2版本2.2.1

那么如何修改代码

ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) +
     geom_bar(position = "dodge")
Run Code Online (Sandbox Code Playgroud)

不要像下面那样得到这个超宽的酒吧. 在此输入图像描述

r ggplot2

6
推荐指数
1
解决办法
1310
查看次数

如何检查赋值给"string"的值

所以我有字符串(ID)的列表,但同时我的字符串是值的名称,其中一些值只是NULL.有没有办法运行一个循环,它将检查名称后面是否有值或它只是NULL?

>list <- c("id1","id2","id3")
>id1
dimension5 sessions
        12        2
>id2
dimension5 sessions
        13        4
>id3
NULL
Run Code Online (Sandbox Code Playgroud)

作为最终结果,我希望看到类似这样的东西(或者1而不是0而不是0)

id  value
id1   yes
id2   yes
id3    no
Run Code Online (Sandbox Code Playgroud)

r

3
推荐指数
1
解决办法
69
查看次数

您可以在 Google Big query 中使用一个查询创建多个表吗?

新的创建表功能已经发布,我想知道是否可以通过一个查询创建 2 个或更多表。

我试过了,但它返回错误

错误:语法错误:意外的关键字 CREATE 在 [8:1]

 #standardSQL
 CREATE OR REPLACE TABLE newtables_test.cg1_uk
 OPTIONS(
   description="blah blah blah"
 ) AS 
select 'x' as y;

CREATE OR REPLACE TABLE newtables_test.cg1_uk2 
as
select 'y' as x 
Run Code Online (Sandbox Code Playgroud)

有任何想法吗?甚至有可能吗?

谢谢!

sql google-bigquery

1
推荐指数
1
解决办法
1947
查看次数

如果满足条件,则计算行

我觉得我错过了一些东西,但我找不到答案。我正在尝试定义 group_id 条件匹配时组开始的位置。在这种情况下,条件是 valuex 不等于 valuey。这可以通过 SQL 中的窗口函数轻松实现,但我不知道在 R 中该做什么

这是输入值。

Name|valuex|valuey
A   |     X|     X
A   |     X|     X
A   |     X|     X
A   |     X|     Z
A   |     Z|     Z
A   |     Z|     Z
A   |     Z|     Z
A   |     Z|     Y
Run Code Online (Sandbox Code Playgroud)

预期产出

Name|valuex|valuey|group
A   |     X|     X|0
A   |     X|     X|0
A   |     X|     X|0
A   |     X|     Z|1
A   |     Z|     Z|1
A   |     Z|     Z|1
A   |     Z|     Z|1
A   |     Z|     Y|2
Run Code Online (Sandbox Code Playgroud)

r

1
推荐指数
1
解决办法
42
查看次数