sno*_*ndy 6 regex scala apache-spark
我有几列的Spark Data Frame 1:(user_uuid,url,date_visit)
我想用以下形式将此DF1转换为数据帧2:(user_uuid,domain,date_visit)
我想要使用的是正则表达式来检测域并将其应用于DF1 val regexpr = """(?i)^((https?):\/\/)?((www|www1)\.)?([\w-\.]+)""".r
你能帮我编写代码来转换Scala中的数据框吗?我是Spark和Scala的新手,语法很难.谢谢!
zer*_*323 15
Spark> = 1.5:
你可以使用regexp_extract功能:
import org.apache.spark.sql.functions.regexp_extract
val patter: String = ???
val groupIdx: Int = ???
df.withColumn("domain", regexp_extract(url, pattern, groupIdx))
Run Code Online (Sandbox Code Playgroud)
Spark <1.5.0
定义UDF
val pattern: scala.util.matching.Regex = ???
def getFirst(pattern: scala.util.matching.Regex) = udf(
(url: String) => pattern.findFirstIn(url) match {
case Some(domain) => domain
case None => "unknown"
}
)
Run Code Online (Sandbox Code Playgroud)
使用定义的UDF:
df.select(
$"user_uuid",
getFirst(pattern)($"url").alias("domain"),
$"date_visit"
)
Run Code Online (Sandbox Code Playgroud)
或者注册临时表:
df.registerTempTable("df")
sqlContext.sql(s"""
SELECT user_uuid, regexp_extract(url, '$pattern', $group_idx) AS domain, date_visit FROM df""")
Run Code Online (Sandbox Code Playgroud)
替换pattern为有效的Java正则表达式和group_id组的索引.
| 归档时间: |
|
| 查看次数: |
10071 次 |
| 最近记录: |