小编mar*_*inr的帖子

使用正则表达式在 spark 中连接两个数据帧

假设我有一个数据框 df1，其中列“color”包含一堆颜色，另一个数据框 df2 包含包含各种短语的列“phrase”。

我想加入两个数据帧，其中 d1 中的颜色出现在 d2 中的短语中。我不能使用d1.join(d2, d2("phrases").contains(d1("color"))，因为它会加入该词出现在短语中的任何地方。例如，我不想匹配像 scaRED 这样的词，其中 RED 是另一个词的一部分。我只想在颜色在短语中作为一个单独的词出现时加入。

我可以使用正则表达式来解决这个问题吗？当我需要引用表达式中的列时，我可以使用什么函数以及语法如何？

regex scala apache-spark

mar*_*inr

lucky-day

5
推荐指数

1
解决办法

175
查看次数

标签统计

apache-spark ×1

regex ×1

scala ×1

使用正则表达式在 spark 中连接两个数据帧

标签 统计

小编mar_inr的帖子

标签统计