使用R中tidytext中的unnest_tokens()保留标点符号

Jun*_*ang 6 twitter r text-mining punctuation tidytext

我正在使用tidytextR进行n-gram分析.

由于我分析推文,我想保留@和#来捕获提及,转发和主题标签.但是,unnest_tokens函数会自动删除所有标点符号并将文本转换为小写.

我发现unnest_tokens有一个使用正则表达式的选项token='regex',所以我可以自定义它清理文本的方式.但是,它只适用于单字分析,并且不适用于n-gram,因为我需要定义token='ngrams'进行n-gram分析.

有没有办法阻止unnest_tokens在n-gram分析中将文本转换为小写?

phi*_*ver 0

tidytext版本 0.1.9 中,您现在可以选择对推文进行标记,如果您不想使用小写字母,请使用该选项to_lower = FALSE

unnest_tokens(tweet_df, word, tweet_column, token = "tweets", to_lower = FALSE)
Run Code Online (Sandbox Code Playgroud)