小编Jun*_*ang的帖子

使用R中tidytext中的unnest_tokens()保留标点符号

我正在使用tidytextR进行n-gram分析.

由于我分析推文,我想保留@和#来捕获提及,转发和主题标签.但是,unnest_tokens函数会自动删除所有标点符号并将文本转换为小写.

我发现unnest_tokens有一个使用正则表达式的选项token='regex',所以我可以自定义它清理文本的方式.但是,它只适用于单字分析,并且不适用于n-gram,因为我需要定义token='ngrams'进行n-gram分析.

有没有办法阻止unnest_tokens在n-gram分析中将文本转换为小写?

twitter r text-mining punctuation tidytext

6
推荐指数
1
解决办法
1202
查看次数

使用 geom_dotplot 更改点图的 y 轴以反映实际计数

我正在尝试使用geom_dotplotof创建点图ggplot2

但是,如本页示例中所示,y 轴的刻度范围从 0 到 1。我想知道如何更改 y 轴刻度,以便这些值反映数据的实际计数。

r ggplot2

6
推荐指数
2
解决办法
4202
查看次数

标签 统计

r ×2

ggplot2 ×1

punctuation ×1

text-mining ×1

tidytext ×1

twitter ×1