过滤火花DataFrame上的字符串包含

Question

val df = sqlContext.read.avro("src/test/resources/episodes.avro")
df.filter("doctor > 5").write.avro("/tmp/output")

但是如果我需要查看doctor字符串是否包含子字符串呢？因为我们在字符串中编写表达式.我怎么做"包含"？

Answer 1

你可以使用contains(这适用于任意序列):

df.filter($"foo".contains("bar"))

like(SQL与SQL简单正则表达式_匹配任意字符并%匹配任意序列):

df.filter($"foo".like("bar"))

df.filter($"foo".rlike("bar"))

根据您的要求.LIKE并且也RLIKE应该使用SQL表达式.

斯卡拉.要使`$`工作,你需要`import sqlContext.implicits._`.您也可以用`df("foo")`或`org.apache.spark.sql.functions.col("foo")`替换它. (14认同)