小编Ric*_*rdo的帖子

在R中使用Quanteda时,从文本语料库中删除非ASCII字符的最佳方法是什么?

我迫切需要.我有一个语料库,我已经转换成一种共同的语言,但有些单词没有正确地转换成英语.因此,我的语料库有非ASCII字符,例如"(U + 00F8)".

我正在使用Quanteda并使用以下代码导入了我的文本:

 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")
Run Code Online (Sandbox Code Playgroud)

我的语料库由166个文档组成.以这种方式将文档导入R中,对于我摆脱这些非ASCII字符的最佳方法是什么?

nlp r corpus tm quanteda

5
推荐指数
1
解决办法
1996
查看次数

标签 统计

corpus ×1

nlp ×1

quanteda ×1

r ×1

tm ×1