小编Jun*_*ang的帖子

我正在使用tidytext包R进行n-gram分析.

由于我分析推文,我想保留@和#来捕获提及,转发和主题标签.但是,unnest_tokens函数会自动删除所有标点符号并将文本转换为小写.

我发现unnest_tokens有一个使用正则表达式的选项token='regex',所以我可以自定义它清理文本的方式.但是,它只适用于单字分析,并且不适用于n-gram,因为我需要定义token='ngrams'进行n-gram分析.

有没有办法阻止unnest_tokens在n-gram分析中将文本转换为小写？

6
推荐指数

1
解决办法

1202
查看次数

我正在尝试使用geom_dotplotof创建点图ggplot2。

但是，如本页示例中所示，y 轴的刻度范围从 0 到 1。我想知道如何更改 y 轴刻度，以便这些值反映数据的实际计数。

6
推荐指数

2
解决办法

4202
查看次数

r ×2

小编Jun_ang的帖子