R使用""将字符串转换为矢量标记化

scr*_*Owl 15 string r vector

我有一个字符串:

string1 <- "This is my string"
Run Code Online (Sandbox Code Playgroud)

我想将它转换为如下所示的向量:

vector1
"This"
"is"
"my"
"string"
Run Code Online (Sandbox Code Playgroud)

我该怎么做呢?我知道我可以使用tm包转换为termDocumentMatrix然后转换为矩阵,但它会按字母顺序排列,我需要它们保持相同的顺序.

Das*_*son 25

您可以使用strsplit来完成此任务.

string1 <- "This is my string"
strsplit(string1, " ")[[1]]
#[1] "This"   "is"     "my"     "string"
Run Code Online (Sandbox Code Playgroud)


Sac*_*amp 12

与Dason略有不同,但这将分裂为任何数量的空白区域,包括换行符:

string1 <- "This   is my
string"
strsplit(string1, "\\s+")[[1]]
Run Code Online (Sandbox Code Playgroud)


Shi*_*Fan 5

作为补充,我们还可以使用unlist()从给定的列表结构生成向量:

string1 <- "This is my string"  # get a list structure
unlist(strsplit(string1, "\\s+"))  # unlist the list
#[1] "This"   "is"     "my"     "string"
Run Code Online (Sandbox Code Playgroud)