小编Gab*_*gut的帖子

如何从RDD [PYSPARK]中删除重复值

我有下表作为RDD:

Key Value
1    y
1    y
1    y
1    n
1    n
2    y
2    n
2    n
Run Code Online (Sandbox Code Playgroud)

我想从中删除所有重复项Value.

输出应该是这样的:

Key Value
1    y
1    n
2    y
2    n
Run Code Online (Sandbox Code Playgroud)

在pyspark中工作时,输出应该是键值对列表,如下所示:

[(u'1',u'n'),(u'2',u'n')]
Run Code Online (Sandbox Code Playgroud)

我不知道如何在for这里应用循环.在普通的Python程序中,它会非常简单.

我想知道是否有pyspark相同的功能.

python apache-spark rdd

13
推荐指数
2
解决办法
2万
查看次数

我的功能不能正确编译

尝试编译以下函数时出现以下错误:

Error: invalid operands of types int and const char [3] to binary operator
Run Code Online (Sandbox Code Playgroud)

我该如何解决?

string getFormattedDate()
{
    formattedDate = Date.getDay() << "/" << Date.getMonth() << "/" << Date.getYear();
    return formattedDate;
}
Run Code Online (Sandbox Code Playgroud)

c++ string

0
推荐指数
1
解决办法
127
查看次数

标签 统计

apache-spark ×1

c++ ×1

python ×1

rdd ×1

string ×1