小编Tho*_*ore的帖子

应用Window函数计算pySpark中的差异

我正在使用pySpark,并设置了我的数据框,其中两列代表每日资产价格,如下所示:

ind = sc.parallelize(range(1,5))
prices = sc.parallelize([33.3,31.1,51.2,21.3])
data = ind.zip(prices)
df = sqlCtx.createDataFrame(data,["day","price"])
Run Code Online (Sandbox Code Playgroud)

我开始申请df.show():

+---+-----+
|day|price|
+---+-----+
|  1| 33.3|
|  2| 31.1|
|  3| 51.2|
|  4| 21.3|
+---+-----+
Run Code Online (Sandbox Code Playgroud)

哪个好,一切都好.我想有另一个列,其中包含价格列的日常回报,即类似的内容

(price(day2)-price(day1))/(price(day1))

经过大量研究后,我被告知通过应用这些pyspark.sql.window功能可以最有效地完成,但我无法看到.

window-functions pyspark spark-dataframe pyspark-sql

17
推荐指数
2
解决办法
2万
查看次数

具有替换的样本但约束每个要绘制的成员的最大频率

是否可以将sampleR中的函数扩展为不返回多于2的相同元素replace = TRUE

假设我有一个列表:

l = c(1,1,2,3,4,5)
Run Code Online (Sandbox Code Playgroud)

要替换3个元素,我会这样做:

sample(l, 3, replace = TRUE)
Run Code Online (Sandbox Code Playgroud)

有没有办法约束其输出,以便只返回最多2个相同的元素?所以(1,1,2)还是(1,3,3)被允许的,但(1,1,1)还是(3,3,3)被排除在外?

random r sample

6
推荐指数
1
解决办法
104
查看次数

Keras 对隐藏层定义的澄清

我正在遵循有关在 Keras 中构建简单深度神经网络的教程,提供的代码是:

# create model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
Run Code Online (Sandbox Code Playgroud)

第一model.add行是定义第一个隐藏层,输入层有 8 个输入吗?因此除了代码之外是否不需要指定输入层input_dim=8

python keras

3
推荐指数
1
解决办法
228
查看次数

SQL将天数转换为周数

我有一个SQL表,其中的列显示天数,并包含23,26,45等条目...我试图将每个条目转换为"周数".从本质上讲,我的意思是如果我的日期条目在0到6之间,那么,这是第1周,如果它是7和13,那么这是第2周,第14周和第20周,第3周等...是在SQL中有一种"有效"的方法吗?

谢谢.托马斯.

sql t-sql sql-server date

2
推荐指数
1
解决办法
1570
查看次数

从 R 向量生成唯一对

我有一个 R 向量如下:

v <- c(2,3,4,5)
Run Code Online (Sandbox Code Playgroud)

我想从此列表中生成唯一的对,因此:

(2,3), (2,4), (2,5), (3,4), (3,5), (4,5)

没有相同的元素被重复两次,所以没有 (2,2) 或 (3,3) 并且可以将 (2,3) 视为与 (3,2) 相同,依此类推。

如何在 R 中做到这一点?

谢谢!

r unique

2
推荐指数
1
解决办法
693
查看次数