我正在尝试使用R中的tm包,并且有一个客户反馈的CSV文件,每行都是不同的反馈实例.我想将此反馈的所有内容导入语料库,但我希望每行都是语料库中的不同文档,以便我可以比较DocTerms矩阵中的反馈.我的数据集中有超过10,000行.
最初我做了以下事情:
fdbk_corpus <-Corpus(VectorSource(fdbk), readerControl = list(language="eng"), sep="\t")
Run Code Online (Sandbox Code Playgroud)
这将创建一个包含1个文档和> 10,000行的语料库,我想要> 10,000个文档,每个文档包含1行.
我想我可以在一个文件夹中拥有10,000多个单独的CSV或TXT文档并从中创建一个语料库...但我认为有一个比这更简单的答案,将每一行作为一个单独的文档阅读.