我正在学习Rust,而让我感到惊讶的是,Rust仅能够区分UTF-8字节序列,而不能区分实际的字素簇(即,变音符号被视为不同的“字符”)。
因此,例如,Rust可以将输入文本变成这样的矢量(借助于"??????".chars()):
['?', '?', '?', '?', '?', '?'] // 4 and 6 are diacritics and shouldn't be distinct items
Run Code Online (Sandbox Code Playgroud)
但是,如何获得这样的向量?
["?", "?", "??", "??"]
Run Code Online (Sandbox Code Playgroud)