小编Tho*_*ore的帖子

应用Window函数计算pySpark中的差异

我正在使用pySpark,并设置了我的数据框,其中两列代表每日资产价格,如下所示:

ind = sc.parallelize(range(1,5))
prices = sc.parallelize([33.3,31.1,51.2,21.3])
data = ind.zip(prices)
df = sqlCtx.createDataFrame(data,["day","price"])

Run Code Online (Sandbox Code Playgroud)

我开始申请df.show():

+---+-----+
|day|price|
+---+-----+
|  1| 33.3|
|  2| 31.1|
|  3| 51.2|
|  4| 21.3|
+---+-----+

Run Code Online (Sandbox Code Playgroud)

哪个好,一切都好.我想有另一个列,其中包含价格列的日常回报,即类似的内容

(price(day2)-price(day1))/(price(day1))

经过大量研究后,我被告知通过应用这些pyspark.sql.window功能可以最有效地完成,但我无法看到.

window-functions pyspark spark-dataframe pyspark-sql

Tho*_*ore

2018 03-29

17
推荐指数

2
解决办法

2万
查看次数

具有替换的样本但约束每个要绘制的成员的最大频率

是否可以将sampleR中的函数扩展为不返回多于2的相同元素replace = TRUE？

假设我有一个列表:

l = c(1,1,2,3,4,5)

Run Code Online (Sandbox Code Playgroud)

要替换3个元素,我会这样做:

sample(l, 3, replace = TRUE)

Run Code Online (Sandbox Code Playgroud)

有没有办法约束其输出,以便只返回最多2个相同的元素？所以(1,1,2)还是(1,3,3)被允许的,但(1,1,1)还是(3,3,3)被排除在外？

random r sample

Tho*_*ore

2018 10-03

6
推荐指数

1
解决办法

104
查看次数

Keras 对隐藏层定义的澄清

我正在遵循有关在 Keras 中构建简单深度神经网络的教程，提供的代码是：

# create model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

Run Code Online (Sandbox Code Playgroud)

第一model.add行是定义第一个隐藏层，输入层有 8 个输入吗？因此除了代码之外是否不需要指定输入层input_dim=8？

python keras

Tho*_*ore

2019 01-28

3
推荐指数

1
解决办法

228
查看次数