Ren*_* B. 2 python sorting apache-spark rdd pyspark
来自 pyspark.RDD 的 takeOrdered 方法从按升序排序的 RDD 中获取 N 个元素,或者按照此处pyspark.RDD.takeOrdered 中所述的可选键函数的指定。该示例使用一键显示以下代码:
>>> sc.parallelize([10, 1, 2, 9, 3, 4, 5, 6, 7], 2).takeOrdered(6, key=lambda x: -x)
[10, 9, 7, 6, 5, 4]
Run Code Online (Sandbox Code Playgroud)
是否还可以为具有 3 列的数据定义更多键,例如 x,y,z?
键应按不同的顺序排列,例如 x= asc、y= desc、z=asc。这意味着如果两行的第一个值 x 相等,则应按降序使用第二个值 y。
对于数字,你可以写:
n = 1
rdd = sc.parallelize([
(-1, 99, 1), (-1, -99, -1), (5, 3, 8), (-1, 99, -1)
])
rdd.takeOrdered(n, lambda x: (x[0], -x[1], x[2]))
# [(-1, 99, -1)]
Run Code Online (Sandbox Code Playgroud)
对于其他对象,您可以定义某种类型的记录类型并定义您自己的一组丰富的比较方法:
class XYZ(object):
slots = ["x", "y", "z"]
def __init__(self, x, y, z):
self.x, self.y, self.z = x, y, z
def __eq__(self, other):
if not isinstance(other, XYZ):
return False
return self.x == other.x and self.y == other.y and self.z == other.z
def __lt__(self, other):
if not isinstance(other, XYZ):
raise ValueError(
"'<' not supported between instances of 'XYZ' and '{0}'".format(
type(other)
))
if self.x == other.x:
if self.y == other.y:
return self.z < other.z
else:
return self.y > other.y
else:
return self.x < other.x
def __repr__(self):
return "XYZ({}, {}, {})".format(self.x, self.y, self.z)
@classmethod
def from_tuple(cls, xyz):
x, y, z = xyz
return cls(x, y, z)
Run Code Online (Sandbox Code Playgroud)
进而:
from xyz import XYZ
rdd.map(XYZ.from_tuple).takeOrdered(n)
# [XYZ(-1, 99, -1)]
Run Code Online (Sandbox Code Playgroud)
在实践中只需使用 SQL:
from pyspark.sql.functions import asc, desc
rdd.toDF(["x", "y", "z"]).orderBy(asc("x"), desc("y"), asc("z")).take(n)
# [Row(x=-1, y=99, z=-1)]
Run Code Online (Sandbox Code Playgroud)