我正在使用 R 和 tm 包进行一些文本分析。我试图根据是否在各个文本文件的内容中找到某个表达式来构建语料库的子集。
我创建了一个包含 20 个文本文件的语料库(感谢 lukeA 提供的这个示例):
reut21578 <- system.file("texts", "crude", package = "tm")
corp <- VCorpus(DirSource(reut21578), list(reader = readReut21578XMLasPlain))
Run Code Online (Sandbox Code Playgroud)
我现在只想选择那些包含字符串“priceduction”的文本文件来创建子集语料库。
检查文档的第一个文本文件,我知道至少有一个文本文件包含该字符串:
writeLines(as.character(corp[1]))
Run Code Online (Sandbox Code Playgroud)
我最好怎样做呢?