我正在尝试清理语料库,我使用了典型的步骤,如下面的代码:
docs<-Corpus(DirSource(path))
docs<-tm_map(docs,content_transformer(tolower))
docs<-tm_map(docs,content_transformer(removeNumbers))
docs<-tm_map(docs,content_transformer(removePunctuation))
docs<-tm_map(docs,removeWords,stopwords('en'))
docs<-tm_map(docs,stripWhitespace)
docs<-tm_map(docs,stemDocument)
dtm<-DocumentTermMatrix(docs)
Run Code Online (Sandbox Code Playgroud)
然而,当我检查矩阵时,几乎没有带引号的单词,例如:"我们""公司""代码指南" - 已知 - 加速
似乎单词本身在引号内,但当我尝试再次运行removePunctuation代码时,它不起作用.前面还有一些带子弹的话我也无法删除.
任何帮助将不胜感激.
我有一个简单的数据框,如下所示:
df
steps numbers rate
1 clicks 332835 100.000000
2 signup 157697 47.379933
3 cart 29866 8.973215
4 buys 17012 5.111241
Run Code Online (Sandbox Code Playgroud)
如何绘制简单的转换漏斗而不是条形图?
我有一个数据框列表,如下所示:
ls[[1]]
[[1]]
month year oracle
1 2004 356.0000
2 2004 390.0000
3 2004 394.4286
4 2004 391.8571
ls[[2]]
[[2]]
month year microsoft
1 2004 339.0000
2 2004 357.7143
3 2004 347.1429
4 2004 333.2857
Run Code Online (Sandbox Code Playgroud)
如何创建如下所示的单个数据框:
month year oracle microsoft
1 2004 356.0000 339.0000
2 2004 390.0000 357.7143
3 2004 394.4286 347.1429
4 2004 391.8571 333.2857
Run Code Online (Sandbox Code Playgroud)