Ste*_*ano 11 unicode nlp r linguistics
我正在尝试将字符串中出现的电话(字符)列表,但是变音符号会自行列表为字符.理想情况下,我在国际音标中有一个单词表,有相当数量的变音符号和它们与基本字符的几种组合.我在这里只给出了一个单词的MWE,但是单词列表和更多类型的组合也是如此.
> word <- "n?ana" # word constituted by 4 phones: [n?],[a],[n],[a]
> table(strsplit(word, ""))
? a n
1 2 2
Run Code Online (Sandbox Code Playgroud)
但想要的结果是:
a n n?
2 1 1
Run Code Online (Sandbox Code Playgroud)
我怎样才能获得这种结果?
尝试
library(stringi)
table(stri_split_boundaries(word, type='character'))
#a n n?
#2 1 1
Run Code Online (Sandbox Code Playgroud)
要么
table(strsplit(word, '(?<=\\P{Ll}|\\w)(?=\\w)', perl=TRUE))
#a n n?
#2 1 1
Run Code Online (Sandbox Code Playgroud)