小编Jai*_*ain的帖子

计算两个字符串中的常用单词

我有两个字符串:

a <- "Roy lives in Japan and travels to Africa"
b <- "Roy travels Africa with this wife"
Run Code Online (Sandbox Code Playgroud)

我希望得到这些字符串之间的常用词.

答案应该是3.

  • "罗伊"

  • "旅行"

  • "非洲"

是常用词

这是我试过的:

stra <- as.data.frame(t(read.table(textConnection(a), sep = " ")))
strb <- as.data.frame(t(read.table(textConnection(b), sep = " ")))
Run Code Online (Sandbox Code Playgroud)

采取独特的,以避免重复计数

stra_unique <-as.data.frame(unique(stra$V1))
strb_unique <- as.data.frame(unique(strb$V1))
colnames(stra_unique) <- c("V1")
colnames(strb_unique) <- c("V1")

common_words <-length(merge(stra_unique,strb_unique, by = "V1")$V1)
Run Code Online (Sandbox Code Playgroud)

我需要这个用于超过2000和1200字符串的数据集.我必须评估字符串的总时间是2000 X 1200.任何快速方式,不使用循环.

string r text-mining data-analysis

5
推荐指数
2
解决办法
2704
查看次数

标签 统计

data-analysis ×1

r ×1

string ×1

text-mining ×1