RUs*_*ser 8 precision r text-mining document-classification confusion-matrix
我试图将Text文档分类为多个类别.我的下面的代码工作正常
matrix[[i]] <- create_matrix(trainingdata[[i]][,1], language="english",removeNumbers=FALSE,stemWords=FALSE,weighting=weightTf,minWordLength=3)
container[[i]] <- create_container(matrix[[i]],trainingdata[[i]][,2],trainSize=1:50,testSize=51:100) ,
models[[i]] <- train_models(container[[i]], algorithms=c("MAXENT","SVM"))
results[[i]] = classify_models(container[[i]],models[[i]])
Run Code Online (Sandbox Code Playgroud)
当我尝试下面的代码来获得精度,召回,准确度值:
analytic[[i]] <- create_analytics(container[[i]], results[[i]])
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
Error in `row.names<-.data.frame`(`*tmp*`, value = c(NA_real_, NA_real_ :
duplicate 'row.names' are not allowed
Run Code Online (Sandbox Code Playgroud)
我Categories的text格式.如果我转换categories成Numeric- 上面的代码工作正常.
是否有工作来保持text格式的类别,并获得精度,召回,准确值.
我的目标是获得多级分类器的精度,召回率,准确度值和混淆矩阵.是否有任何其他包来获取多类文本分类器的上述值(一个与所有)
小智 8
正如user3294343评论的那样,它将我的类字段转换为因子,然后转换为数字,如下所示:
doc_matrix <- create_matrix(dataset.arff$text, language="english", removeNumbers=TRUE, stemWords=TRUE, removeSparseTerms=.998)
container <- create_container(doc_matrix, as.numeric(factor(dataset.arff$"@@class@@")), trainSize=1:1500, testSize=1501:1999, virgin=FALSE)
Run Code Online (Sandbox Code Playgroud)
这解决了我的错误.