我试图从字符串 "60 ML of paracetomol and 0.5 ML of XYZ" 中提取 60 ML 和 0.5 ML。该字符串是 spark 数据帧中 X 列的一部分。虽然我能够测试我的正则表达式代码以在正则表达式验证器中提取 60 ML 和 0.5 ML,但我无法使用 regexp_extract 提取它,因为它仅针对第一个匹配项。因此我只得到 60 ML。
你能建议我使用 UDF 的最佳方法吗?
pyspark
pyspark ×1