我正在使用pySpark
,并设置了我的数据框,其中两列代表每日资产价格,如下所示:
ind = sc.parallelize(range(1,5))
prices = sc.parallelize([33.3,31.1,51.2,21.3])
data = ind.zip(prices)
df = sqlCtx.createDataFrame(data,["day","price"])
Run Code Online (Sandbox Code Playgroud)
我开始申请df.show()
:
+---+-----+
|day|price|
+---+-----+
| 1| 33.3|
| 2| 31.1|
| 3| 51.2|
| 4| 21.3|
+---+-----+
Run Code Online (Sandbox Code Playgroud)
哪个好,一切都好.我想有另一个列,其中包含价格列的日常回报,即类似的内容
(price(day2)-price(day1))/(price(day1))
经过大量研究后,我被告知通过应用这些pyspark.sql.window
功能可以最有效地完成,但我无法看到.
是否可以将sample
R中的函数扩展为不返回多于2的相同元素replace = TRUE
?
假设我有一个列表:
l = c(1,1,2,3,4,5)
Run Code Online (Sandbox Code Playgroud)
要替换3个元素,我会这样做:
sample(l, 3, replace = TRUE)
Run Code Online (Sandbox Code Playgroud)
有没有办法约束其输出,以便只返回最多2个相同的元素?所以(1,1,2)
还是(1,3,3)
被允许的,但(1,1,1)
还是(3,3,3)
被排除在外?
我正在遵循有关在 Keras 中构建简单深度神经网络的教程,提供的代码是:
# create model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
Run Code Online (Sandbox Code Playgroud)
第一model.add
行是定义第一个隐藏层,输入层有 8 个输入吗?因此除了代码之外是否不需要指定输入层input_dim=8
?
我有一个SQL表,其中的列显示天数,并包含23,26,45等条目...我试图将每个条目转换为"周数".从本质上讲,我的意思是如果我的日期条目在0到6之间,那么,这是第1周,如果它是7和13,那么这是第2周,第14周和第20周,第3周等...是在SQL中有一种"有效"的方法吗?
谢谢.托马斯.
我有一个 R 向量如下:
v <- c(2,3,4,5)
Run Code Online (Sandbox Code Playgroud)
我想从此列表中生成唯一的对,因此:
(2,3), (2,4), (2,5), (3,4), (3,5), (4,5)
没有相同的元素被重复两次,所以没有 (2,2) 或 (3,3) 并且可以将 (2,3) 视为与 (3,2) 相同,依此类推。
如何在 R 中做到这一点?
谢谢!