用R中的变音符号制表字符

Ste*_*ano 11 unicode nlp r linguistics

我正在尝试将字符串中出现的电话(字符)列表,但是变音符号会自行列表为字符.理想情况下,我在国际音标中有一个单词表,有相当数量的变音符号和它们与基本字符的几种组合.我在这里只给出了一个单词的MWE,但是单词列表和更多类型的组合也是如此.

> word <- "n?ana" # word constituted by 4 phones: [n?],[a],[n],[a]
> table(strsplit(word, ""))
 ? a n 
1 2 2
Run Code Online (Sandbox Code Playgroud)

但想要的结果是:

a n n?
2 1 1
Run Code Online (Sandbox Code Playgroud)

我怎样才能获得这种结果?

akr*_*run 8

尝试

library(stringi)
table(stri_split_boundaries(word, type='character'))
#a n n? 
#2 1 1 
Run Code Online (Sandbox Code Playgroud)

要么

 table(strsplit(word, '(?<=\\P{Ll}|\\w)(?=\\w)', perl=TRUE))
 #a n  n? 
 #2 1 1 
Run Code Online (Sandbox Code Playgroud)