Scala和Spark中的"zip"方法是什么？

Question

在Scala,Spark和许多其他"大数据"类型的框架,语言,库中,我看到了名为" zip*"的方法.例如,在Scala中,List类型有一个固有的zipWithIndex方法,您可以这样使用:

val listOfNames : List[String] = getSomehow()
for((name,i) <- listOfNames.zipWithIndex) {
  println(s"Names #${i+1}: ${name}")
}

同样星火有RDD类似的方法zip,zipPartitions等等.

但方法名称"zip"完全让我失望.这是计算或离散数学的概念吗？!所有这些方法的名称中都有" zip " 的动机是什么？

Answer 1

它们被命名为zip,因为您正在压缩两个数据集,如拉链.

要使其可视化,请采用两个数据集:

x = [1,2,3,4,5,6]
y = [a,b,c,d,e,f]

然后将它们压缩在一起得到

当你向下移动数据集时,我把额外的间距给了拉链幻觉:)