小编Ali*_*Deg的帖子

如果列不包含字符串，Pyspark 过滤数据框

我希望以前没有人问过，至少我找不到。我试图排除键列不包含“sd”值的行。下面是它包含时的工作示例。

values = [("sd123","2"),("kd123","1")] 
columns = ['Key', 'V1']
df2 = spark.createDataFrame(values, columns)

df2.where(F.col('Key').contains('sd')).show()

Run Code Online (Sandbox Code Playgroud)

如何做相反的事情？

python apache-spark apache-spark-sql pyspark

Ali*_*Deg

2020 12-17

17
推荐指数

1
解决办法

3万
查看次数

在大查询中重建从长到长(标准SQL)

不幸的是,在BQ中重塑它并不像在R中那么容易,我无法导出这个项目的数据.

这是输入

date    country A             B         C      D
20170928    CH  3000.3        121       13     3200
20170929    CH  2800.31       137       23     1614.31

Run Code Online (Sandbox Code Playgroud)

预期产出

date    country Metric  Value  
20170928    CH  A       3000.3  
20170928    CH  B       121     
20170928    CH  C       13     
20170928    CH  D       3200
20170929    CH  A       2800.31 
20170929    CH  B       137       
20170929    CH  C       23     
20170929    CH  D       1614.31

Run Code Online (Sandbox Code Playgroud)

我的表还有更多的列和行(但我假设需要很多手册)

sql google-bigquery

Ali*_*Deg

lucky-day

7
推荐指数

1
解决办法

1321
查看次数

ggplot2道奇重叠 - 保留每个元素的宽度

希望它很容易理解.它与此处的示例基本相同.

运用

ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) +
   geom_bar(position = position_dodge(preserve = "single"))

Run Code Online (Sandbox Code Playgroud)

但是我得到Error in position_dodge(preserve = "single") : unused argument (preserve = "single")/.ggplot2版本2.2.1

那么如何修改代码

ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) +
     geom_bar(position = "dodge")

Run Code Online (Sandbox Code Playgroud)

不要像下面那样得到这个超宽的酒吧.

r ggplot2

Ali*_*Deg

2017 08-29

6
推荐指数

1
解决办法

1310
查看次数

如何检查赋值给"string"的值

所以我有字符串(ID)的列表,但同时我的字符串是值的名称,其中一些值只是NULL.有没有办法运行一个循环,它将检查名称后面是否有值或它只是NULL？

>list <- c("id1","id2","id3")
>id1
dimension5 sessions
        12        2
>id2
dimension5 sessions
        13        4
>id3
NULL

Run Code Online (Sandbox Code Playgroud)

作为最终结果,我希望看到类似这样的东西(或者1而不是0而不是0)

id  value
id1   yes
id2   yes
id3    no

Run Code Online (Sandbox Code Playgroud)

Ali*_*Deg

lucky-day

3
推荐指数

1
解决办法

69
查看次数

您可以在 Google Big query 中使用一个查询创建多个表吗？

新的创建表功能已经发布，我想知道是否可以通过一个查询创建 2 个或更多表。

我试过了，但它返回错误

错误：语法错误：意外的关键字 CREATE 在 [8:1]

 #standardSQL
 CREATE OR REPLACE TABLE newtables_test.cg1_uk
 OPTIONS(
   description="blah blah blah"
 ) AS 
select 'x' as y;

CREATE OR REPLACE TABLE newtables_test.cg1_uk2 
as
select 'y' as x

Run Code Online (Sandbox Code Playgroud)

有任何想法吗？甚至有可能吗？

谢谢！

sql google-bigquery

Ali*_*Deg

lucky-day

1
推荐指数

1
解决办法

1947
查看次数

如果满足条件，则计算行

我觉得我错过了一些东西，但我找不到答案。我正在尝试定义 group_id 条件匹配时组开始的位置。在这种情况下，条件是 valuex 不等于 valuey。这可以通过 SQL 中的窗口函数轻松实现，但我不知道在 R 中该做什么

这是输入值。

Name|valuex|valuey
A   |     X|     X
A   |     X|     X
A   |     X|     X
A   |     X|     Z
A   |     Z|     Z
A   |     Z|     Z
A   |     Z|     Z
A   |     Z|     Y

Run Code Online (Sandbox Code Playgroud)

预期产出

Name|valuex|valuey|group
A   |     X|     X|0
A   |     X|     X|0
A   |     X|     X|0
A   |     X|     Z|1
A   |     Z|     Z|1
A   |     Z|     Z|1
A   |     Z|     Z|1
A   |     Z|     Y|2

Run Code Online (Sandbox Code Playgroud)

Ali*_*Deg

lucky-day

1
推荐指数

1
解决办法

42
查看次数