小编use*_*660的帖子

使用二叉树实现堆

之前在Stack Exchange中已经提出过这个问题,但是没有得到答复.

链接到前面提到的问题: 二进制堆通过二叉树结构实现

如何在二叉树中实现堆.要实现堆,了解最后一个填充节点和第一个未占用节点非常重要.这可以在树的级别排序中完成,但是时间复杂度将是O(n)以便找到第一个未占用的节点.那么,如何在O(logn)中的二叉树中实现堆?

谢谢Shekhar

java heap binary-tree

14
推荐指数
3
解决办法
4万
查看次数

使用jsoup解析html并删除标记块

我想删除标签之间的所有内容.输入的示例可以是

输入:

<body>
  start
  <div>
    delete from below
    <div class="XYZ">
      first div having this class
      <div>
        waste
      </div>
      <div class="XYZ">
        second div having this class
      </div>
      waste
    </div>
    delete till above
  </div>
  <div>
    this will also remain
  </div>
  end
</body>
Run Code Online (Sandbox Code Playgroud)

输出将是:

<body>
  start
  <div>
    delete from below
    delete till above
  </div>
  <div>
    this will also remain
  </div>
  end
</body>
Run Code Online (Sandbox Code Playgroud)

基本上,我必须删除第一次出现的整个块 <div class="XYZ">

谢谢,

java jsoup

7
推荐指数
1
解决办法
2万
查看次数

根据另一个RDD过滤掉一个RDD

我有两个RDD:

**rdd1**
id1 val1
id2 val2

**rdd2**
id1 v1
id2 v2
id1 v3
id8 v7
id1 v4
id3 v5
id6 v6
Run Code Online (Sandbox Code Playgroud)

我想过滤RDD2,使其仅包含rdd1的键.所以输出将是

**output**
id1 v1
id2 v2
id1 v3
id1 v4
Run Code Online (Sandbox Code Playgroud)

之前已经在stackoverflow中询问了这个问题,但对于人们广播设置然后用于过滤的较小数据集,我的问题是rdd1大小> 5亿,rdd2超过100亿

请帮忙

scala filter apache-spark

4
推荐指数
1
解决办法
2118
查看次数

reduceBykey Spark维持秩序

我的输入数据集看起来像

id1, 10, v1
id2, 9, v2
id2, 34, v3
id1, 6, v4
id1, 12, v5
id2, 2, v6
Run Code Online (Sandbox Code Playgroud)

我想要输出

id1; 6,v4 | 10,v1 | 12,v5
id2; 2,v6 | 9,v2 | 34,v3
Run Code Online (Sandbox Code Playgroud)

就是这样

id1: array[num(i),value(i)] where num(i) should be sorted
Run Code Online (Sandbox Code Playgroud)

我尝试过的:

  • 获取id和第二列作为键,sortByKey但由于它是一个字符串,因此排序不会像int那样发生,而是作为字符串发生

  • 获取第二列作为键,sortByKey然后获取id和键以及第二列值reduceByKey.但在这种情况下,在做的时候 reduceByKey; 订单不会保留.甚至groupByKey没有阻止订单.实际上这是预期的.

任何帮助将不胜感激.

reduce scala apache-spark rdd

3
推荐指数
1
解决办法
2851
查看次数

从Spark Scala中删除重复的键

我使用带有scala的spark 1.2并且有一对RDD with(String,String).示例记录如下所示:

<Key,  value>
id_1,  val_1_1; val_1_2
id_2,  val_2_1; val_2_2
id_3,  val_3_1; val_3_2
id_1,  val_4_1; val_4_2
Run Code Online (Sandbox Code Playgroud)

我只想删除所有带有重复键的记录,因此在上面的示例中,第四条记录将被删除,因为id_1是一个重复键.

请帮忙.

谢谢.

scala apache-spark

1
推荐指数
1
解决办法
6747
查看次数

如何在值上膨胀对RDD?

我使用Scala和我想要一个转换RDD(String, List[String])RDD(String, String)具有单独的元素列表作为行,如

cat List[2,4]
dog List[6,5,4]
Run Code Online (Sandbox Code Playgroud)

应转换为

cat 2
cat 4
dog 6
dog 5
dog 4
Run Code Online (Sandbox Code Playgroud)

scala apache-spark

1
推荐指数
1
解决办法
105
查看次数

标签 统计

apache-spark ×4

scala ×4

java ×2

binary-tree ×1

filter ×1

heap ×1

jsoup ×1

rdd ×1

reduce ×1