Spark 数据集 groupByKey 不起作用（Java）

Question

Spark 数据集 groupByKey 不起作用（Java）

ant*_*puz 5 java apache-spark apache-spark-sql

我尝试使用数据集的groupByKey方法。我无法找出问题所在，也找不到任何使用 groupByKey 的工作示例。

所以让我指出我在解决方案中寻找的要点：

我想使用 groupByKey - 有很多使用 groupBy("key").agg(function) 的示例，我知道但不想使用它们（教育目的）
我想使用 Java - 很多例子都使用 Scala，但我又不想使用它。
该函数最好写成 lambda 表达式。

这是我所做的：

//Inner class
public static class Bean implements Serializable {
    private static final long serialVersionUID = 1L;
    private String k;
    private int something;

    public Bean(String name, int value) {
        k = name;
        something = value;
    }

    public String getK() {return k;}
    public int getSomething() {return something;}

    public void setK(String k) {this.k = k;}
    public void setSomething(int something) {this.something = something;}
}

//usage
List<Bean> debugData = new ArrayList<Bean>();
debugData.add(new Bean("Arnold", 18));
debugData.add(new Bean("Bob", 7));
debugData.add(new Bean("Bob", 13));
debugData.add(new Bean("Bob", 15));
debugData.add(new Bean("Alice", 27));
Dataset<Row> df = sqlContext.createDataFrame(debugData, Bean.class);
df.groupByKey(row -> {new Bean(row.getString(0), row.getInt(1));}, Encoders.bean(Bean.class)); //doesn't compile

Run Code Online (Sandbox Code Playgroud)

我收到的错误：

不明确的方法调用 - IDE 显示有关 Function1 和 MapFunction 匹配的警告。
getString 和 getInt 无法解析
我无法显示/打印结果

Answer 1

aba*_*hel 3

使用 Java 8 lambda

df.groupByKey(row -> {
            return new Bean(row.getString(0), row.getInt(1));
        }, Encoders.bean(Bean.class));

Run Code Online (Sandbox Code Playgroud)

使用MapFunction

df.groupByKey(new MapFunction<Row, Bean>() {
            @Override
            public Bean call(Row row) throws Exception {
                return new Bean(row.getString(0), row.getInt(1));
            }
        }, Encoders.bean(Bean.class));

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，1 月前
查看次数：	3675 次
最近记录：	7 年，4 月前