小编Way*_*nja的帖子

"RTextTools"create_matrix出错了

我正在运行RTextTools包来构建文本分类模型.

当我准备预测数据集并尝试将其转换为矩阵时.我得到错误:

Error in if (attr(weighting, "Acronym") == "tf-idf") weight <- 1e-09 : 
  argument is of length zero

Run Code Online (Sandbox Code Playgroud)

我的代码如下:

table<-read.csv("traintest.csv",header = TRUE)
dtMatrix <- create_matrix(table["COMMENTS"])
container <- create_container(dtMatrix, 
                              table$LIKELIHOOD_TO_RECOMMEND, 
                              trainSize=1:5000,testSize=5001:10000, 
                              virgin=FALSE)
model <- train_model(container, "SVM", kernel="linear", cost=1)

predictionData<-read.csv("rest.csv",header = TRUE)
**predMatrix <- create_matrix(predictionData["COMMENTS"],originalMatrix=dtMatrix)**
Error in if (attr(weighting, "Acronym") == "tf-idf") weight <- 1e-09 : 
      argument is of length zero

Run Code Online (Sandbox Code Playgroud)

错误是由最后一个代码(粗体)给出我尝试在谷歌搜索但没有看到一个明确的解决方案.

谢谢

r classification text-mining

Way*_*nja

lucky-day

12
推荐指数

1
解决办法

3922
查看次数

选择每组具有多个不同值的组

我有如下数据：

ID  category class
1   a        m  
1   a        s
1   b        s
2   a        m
3   b        s
4   c        s
5   d        s

Run Code Online (Sandbox Code Playgroud)

我想通过仅包含那些具有多个 ( > 1) 不同类别的“ID”来对数据进行子集化。

我的预期输出：

ID  category class
1   a        m
1   a        s
1   b        s

Run Code Online (Sandbox Code Playgroud)

有没有办法这样做？

我试过

library(dplyr)
df %>% 
  group_by(ID) %>%
  filter(n_distinct(category, class) > 1)

Run Code Online (Sandbox Code Playgroud)

但它给了我一个错误：

# Error: expecting a single value

Run Code Online (Sandbox Code Playgroud)

r subset

Way*_*nja

2017 08-08

4
推荐指数

1
解决办法

1264
查看次数

在R中重新格式化表格

我有一个如下表格(具有相同ID的不同行将具有相同的性别和年龄值,但不同的类别和子类别值):

  ID product.category sub.category gender   age
1  1             food      chicken      M young
2  1          kitchen       napkin      M young
3  1             food        steak      M young
4  2       electronic        phone      F   mid
5  3            cloth        shirt      M   old
6  3          kitchen         bowl      M   old
7  4             alch         beer      F young

Run Code Online (Sandbox Code Playgroud)

通过组合具有相同ID的不同行,我想改进表格如下:

  ID product.category1 sub.category1 product.category2 sub.category2 product.category3 sub.category3 gender   age
1  1              food       chicken           kitchen        napkin              food         steak      M young
2  2        electronic         phone              null          null              null          null      F   mid
3  3 …

Run Code Online (Sandbox Code Playgroud)

r reshape

Way*_*nja

2015 09-15

2
推荐指数

2
解决办法

269
查看次数