小编ano*_*ous的帖子

清洁语料库时,tm包函数未删除引号和连字符

我正在尝试清理语料库,我使用了典型的步骤,如下面的代码:

docs<-Corpus(DirSource(path))
docs<-tm_map(docs,content_transformer(tolower))
docs<-tm_map(docs,content_transformer(removeNumbers))
docs<-tm_map(docs,content_transformer(removePunctuation))
docs<-tm_map(docs,removeWords,stopwords('en'))
docs<-tm_map(docs,stripWhitespace)
docs<-tm_map(docs,stemDocument)
dtm<-DocumentTermMatrix(docs)

Run Code Online (Sandbox Code Playgroud)

然而,当我检查矩阵时,几乎没有带引号的单词,例如:"我们""公司""代码指南" - 已知 - 加速

似乎单词本身在引号内,但当我尝试再次运行removePunctuation代码时,它不起作用.前面还有一些带子弹的话我也无法删除.

任何帮助将不胜感激.

r text-mining tm

ano*_*ous

lucky-day

8
推荐指数

1
解决办法

4305
查看次数

在ggplot中绘制一个简单的转换漏斗

我有一个简单的数据框,如下所示:

df
   steps  numbers     rate
 1 clicks 332835  100.000000
 2 signup  157697  47.379933
 3  cart   29866   8.973215
 4  buys   17012   5.111241

Run Code Online (Sandbox Code Playgroud)

如何绘制简单的转换漏斗而不是条形图？

r ggplot2

ano*_*ous

2016 03-08

6
推荐指数

1
解决办法

5143
查看次数

合并数据帧列表中的数据帧

我有一个数据框列表,如下所示:

ls[[1]]
[[1]]

 month year   oracle
    1 2004 356.0000
    2 2004 390.0000
    3 2004 394.4286
    4 2004 391.8571 
 ls[[2]]
 [[2]]
 month year microsoft
    1 2004  339.0000
    2 2004  357.7143
    3 2004  347.1429
    4 2004  333.2857

Run Code Online (Sandbox Code Playgroud)

如何创建如下所示的单个数据框:

 month year   oracle   microsoft
    1 2004 356.0000    339.0000
    2 2004 390.0000    357.7143
    3 2004 394.4286    347.1429
    4 2004 391.8571    333.2857

Run Code Online (Sandbox Code Playgroud)

r dataframe

ano*_*ous

2015 10-20

5
推荐指数

2
解决办法

1492
查看次数