String.replace返回字符串的二进制表示

Question

String.replace返回字符串的二进制表示

我正在学习长生不老药,并且遇到了一些对我没有意义的事情......

我正在尝试删除标点符号

"Freude schöner Götterfunken" |> String.replace(~r/[^\s\w]/, "") #=> <<70, 114, 101, 117, 100, 101, 32, 115, 99, 104, 195, 110, 101, 114, 32, 71, 195, 116, 116, 101, 114, 102, 117, 110, 107, 101, 110>>
"Freude schöner Götterfunken" |> String.replace(~r/[^\w]/, "") #=> <<70, 114, 101, 117, 100, 101, 32, 115, 99, 104, 195, 110, 101, 114, 32, 71, 195, 116, 116, 101, 114, 102, 117, 110, 107, 101, 110>>
"Freude schöner Götterfunken" |> String.replace(~r/\p{P}/, "") #=> <<70, 114, 101, 117, 100, 101, 32, 115, 99, 104, 195, 110, 101, 114, 32, 71, 195, 116, 116, 101, 114, 102, 117, 110, 107, 101, 110>>
"Freude schöner Götterfunken" |> String.replace(~r/\s/, "") #=> FreudeschönerGötterfunken
"Hi my name is bob" |> String.replace(~r/\w/, "") #=> "    "
Regex.run(~r/[^\w]/, "Freude schöner Götterfunken") #=> [<<182>>]

Run Code Online (Sandbox Code Playgroud)

这似乎是一个错误,但作为一个菜鸟,我假设无知.为什么替换不返回字符串？

Answer 1

Jos*_*lim 22

你是对的,String.replace/2没有返回一个字符串,因为Elixir将字符串定义为utf-8编码的二进制文件.但是,这不是一个错误,因为Elixir希望您对参数传递或执行有效操作,因为它不会验证所有结果(由于价格昂贵).

例如,如果你传递上面的任何二进制文件String.downcase/1,Elixir将把它知道的部分放在一边,忽略其余部分.它工作的原因是因为UTF-8自动同步,所以如果我们看到奇怪的东西,我们可以跳过奇怪的字节并继续进行操作.

换句话说,Elixir中字符串处理的理念是在边界进行验证(比如打开文件,进行I/O或从数据库中读取)并假设我们正在使用并执行有效的操作.

好吧,尽管如此,为什么你的代码不起作用？原因是你的正则表达式没有启用unicode.让我们添加u修饰符:

iex> "Freude schöner Götterfunken" |> String.replace(~r/[^\s\w]/u, "")
"Freude schöner Götterfunken"

Run Code Online (Sandbox Code Playgroud)

嗯,它不能解决你的问题,但至少结果是有效的.在这里阅读unicode类意味着我们无法用unicode属性真正解决这个问题,因为ö在你的例子中是一个匹配\p{L}属性的单一代码点.

也许在这种情况下最简单的解决方案,假设你只想解决德语问题,就是遍历二进制文件,保持字节<= 127.如下:

iex> for <<x <- "Freude schöner Götterfunken">>, x <= 127, into: "", do: <<x>>
"Freude schner Gtterfunken"

Run Code Online (Sandbox Code Playgroud)

如果你想要一个更完整的解决方案,你应该考虑unicode音译.

归档时间：	11 年，2 月前
查看次数：	1580 次
最近记录：	11 年，2 月前