小编Car*_*Pun的帖子

Spark数据帧reducebykey就像操作一样

我有一个带有以下数据的Spark数据帧(我使用spark-csv来加载数据):

key,value
1,10
2,12
3,0
1,20
Run Code Online (Sandbox Code Playgroud)

有什么类似于spark RDD reduceByKey可以返回Spark DataFrame :(基本上,总结相同的键值)

key,value
1,30
2,12
3,0
Run Code Online (Sandbox Code Playgroud)

(我可以将数据转换为RDD并执行reduceByKey操作,但是有更多Spark DataFrame API方法可以执行此操作吗?)

sql scala apache-spark apache-spark-sql

8
推荐指数
1
解决办法
2万
查看次数

使用c ++在编译时从另一个数组中提取数组

不确定是否可以使用更高版本的c ++.(我无法弄清楚使用传统的c ++来实现以下行为.)

例如,

如果我有一个像这样定义的数组:

在头文件中

struct Def {
  static const int N = 5;
  static const double data[N];
};
Run Code Online (Sandbox Code Playgroud)

在它的cpp

const double Def::data[Def::N] = {0,1,2,3,4};
Run Code Online (Sandbox Code Playgroud)

是否有可能有一个模板get_subarray,使得

get_subarray<Def,2,0>::data 将是一系列内容 {0,2,4}

get_subarray<Def,2,1>::data 将是一系列内容 {1,3}

哪里

template<typename T, int M, int m>
struct get_phase {
    // some code for the array variable data which will 
    // extract element from T::data for every M sample offset by index m
};
Run Code Online (Sandbox Code Playgroud)

c++ arrays templates c++11 c++14

6
推荐指数
2
解决办法
301
查看次数

C++对象实例化的数组(我正在尝试查找编译时解决方案)

例如,我有以下C++类:

struct A {
  A(const int value) {}
};
Run Code Online (Sandbox Code Playgroud)

如果我想要一个对象,我可以这样做:

A a = A(3);
Run Code Online (Sandbox Code Playgroud)

我想构造其中的10个对象,我不知道如何静态实例化.

A a[10]; // This won't compile, as struct A constructor needs an argument 
Run Code Online (Sandbox Code Playgroud)

我可以使用指针A *a,然后逐个创建对象,但我不确定是否有C++11可用的新功能允许我可以静态地执行这些操作?

c++ c++11

5
推荐指数
1
解决办法
131
查看次数

spark scala dataframe时间戳转换排序?

我有一个csv的形式:

t,value
2012-01-12 12:30:00,4
2012-01-12 12:45:00,3
2012-01-12 12:00:00,12
2012-01-12 12:15:00,13
2012-01-12 13:00:00,7
Run Code Online (Sandbox Code Playgroud)

我使用spark-csv将其转换为数据帧.(所以tString类型,并且value是整数类型).什么是适当的火花scala方式,所以输出按时间排序?

我正在考虑转换t为允许数据帧的某种类型sortBy.但我不熟悉哪种时间戳类型允许按时间排序数据帧.

scala dataframe apache-spark apache-spark-sql

3
推荐指数
1
解决办法
6378
查看次数

如何合并多级(即多索引)数据帧?

在“cell1”和“cell2”下的列“t”上合并多级数据框的python/panda方法是什么?

import pandas as pd
import numpy as np

df1 = pd.DataFrame(np.arange(4).reshape(2, 2), 
               columns = [['cell 1'] * 2, ['t', 'sb']])
df2 = pd.DataFrame([[1, 5], [2, 6]], 
           columns = [['cell 2'] * 2, ['t', 'sb']])
Run Code Online (Sandbox Code Playgroud)

现在,当我尝试合并时"t",python REPL 将出错

ddf = pd.merge(df1, df2, on='t', how='outer')
Run Code Online (Sandbox Code Playgroud)

有什么好的方法来处理这个问题?

python dataframe pandas

3
推荐指数
1
解决办法
2320
查看次数

spark(Scala)数据帧过滤(FIR)

假设我有一个数据帧(存储在scala val中df),其中包含来自csv的数据:

time,temperature
0,65
1,67
2,62
3,59
Run Code Online (Sandbox Code Playgroud)

我从文件中读取这个作为scala语言中的spark数据帧没有问题.

我想添加一个过滤列(通过过滤器我的意思是信号处理移动平均过滤),(比方说我想做(T[n]+T[n-1])/2.0):

time,temperature,temperatureAvg
0,65,(65+0)/2.0
1,67,(67+65)/2.0
2,62,(62+67)/2.0
3,59,(59+62)/2.0
Run Code Online (Sandbox Code Playgroud)

(实际上,对于第一行说,我想要32.5而不是(65+0)/2.0.我写了它来澄清预期的2步时间过滤操作输出)

那么如何实现呢?我不熟悉火花数据帧操作,它沿着列迭代地组合行...

scala dataframe apache-spark apache-spark-sql

1
推荐指数
1
解决办法
1176
查看次数