我是新手,并试图了解正常RDD和一对RDD之间的区别.使用一对RDD而不是普通RDD的用例有哪些?如果可能的话,我想通过一个例子来理解对RDD的内部结构.谢谢
小智 3
Pair RDD 只是一种引用包含键/值对(即数据元组)的 RDD 的方式。这实际上并不是使用其中一个而不是使用另一个的问题。例如,如果您想根据 ID 计算某些内容,您可以按 ID 将输入分组在一起。这个例子只是分割一行文本并使用第一个单词作为键返回一个 Pair RDD [1]:
val pairs = lines.map(x => (x.split(" ")(0), x))
Run Code Online (Sandbox Code Playgroud)
您最终得到的 Pair RDD 允许您减少值或根据键对数据进行排序,仅举几个例子。
阅读底部的链接可能会对您有好处,我厚颜无耻地从中复制了示例,因为理解 Pair RDD 以及如何使用元组对于您将在 Spark 中执行的许多操作来说是非常基础的。阅读“对 RDD 的转换”,了解一旦拥有对 RDD 后您通常想要做什么。
[1] https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch04.html
| 归档时间: |
|
| 查看次数: |
10828 次 |
| 最近记录: |