标签: text-mining

        Barbara good    friends Benny   bad
Barbara 2   1   1   1   0
good    1   1   0   0   0
friends 1   0   1   1   0
Benny   1   0   1   2   1
bad     0   0   1   1   1

Run Code Online (Sandbox Code Playgroud)

请注意,对角线是单词的频率.因为芭芭拉和芭芭拉一起经常出现在巴巴拉的句子中.我希望不要超过,但如果代码变得太复杂,这不是一个大问题.

python text-mining nltk

mum*_*mpy

2016 07-23

5
推荐指数

1
解决办法

2763
查看次数

在R中删除过于常见的单词(出现在80%以上的文档中)

我正在使用'tm'包来创建语料库.我已经完成了大部分预处理步骤.剩下的就是删除过于常见的单词(超过80%的文档中出现的术语).任何人都可以帮我吗？

dsc <- Corpus(dd)
dsc <- tm_map(dsc, stripWhitespace)
dsc <- tm_map(dsc, removePunctuation)
dsc <- tm_map(dsc, removeNumbers)
dsc <- tm_map(dsc, removeWords, otherWords1)
dsc <- tm_map(dsc, removeWords, otherWords2)
dsc <- tm_map(dsc, removeWords, otherWords3)
dsc <- tm_map(dsc, removeWords, javaKeywords)
dsc <- tm_map(dsc, removeWords, stopwords("english"))
dsc = tm_map(dsc, stemDocument)
dtm<- DocumentTermMatrix(dsc, control = list(weighting = weightTf, 
                         stopwords = FALSE))

dtm = removeSparseTerms(dtm, 0.99) 
# ^-  Removes overly rare words (occur in less than 2% of the documents)

Run Code Online (Sandbox Code Playgroud)

r text-mining tm

Faw*_*waz

2014 09-18

5
推荐指数

2
解决办法

9218
查看次数

文本摘要：如何选择合适的 n-gram 大小

我正在总结文本，使用 nltk 库我能够提取二元组一元组和三元组并按频率对它们进行排序

由于我对这个领域 (NLP) 很陌生，我想知道是否可以使用统计模型来自动选择合适的 Ngrams 大小（我的意思是 N-gram 的长度，一个单词的 unigram，两个字的二元组，或 3 个字的三元组）

例如，假设我有这篇想要总结的文本，作为总结，我将只保留 5 个最相关的 N-gram：

"A more principled way to estimate sentence importance is using random walks 
and eigenvector centrality. LexRank[5] is an algorithm essentially identical 
to TextRank, and both use this approach for document summarization. The two 
methods were developed by different groups at the same time, and LexRank 
simply focused on summarization, but could just as easily be used for
keyphrase extraction or any other NLP …

Run Code Online (Sandbox Code Playgroud)

nlp information-retrieval summary data-mining text-mining

sel*_*sel

2016 03-10

5
推荐指数

1
解决办法

2946
查看次数

如何使用OpenNLP在R中获取POS标签？

这是R代码:

library(NLP) 
library(openNLP)
tagPOS <-  function(x, ...) {
s <- as.String(x)
word_token_annotator <- Maxent_Word_Token_Annotator()
a2 <- Annotation(1L, "sentence", 1L, nchar(s))
a2 <- annotate(s, word_token_annotator, a2)
a3 <- annotate(s, Maxent_POS_Tag_Annotator(), a2)
a3w <- a3[a3$type == "word"]
POStags <- unlist(lapply(a3w$features, `[[`, "POS"))
POStagged <- paste(sprintf("%s/%s", s[a3w], POStags), collapse = " ")
list(POStagged = POStagged, POStags = POStags)}
str <- "this is a the first sentence."
tagged_str <-  tagPOS(str)

Run Code Online (Sandbox Code Playgroud)

输出是:

tagged_str $ POStagged [1]"this/DT is/VBZ a/DT the/DT first/JJ sentence/NN ./."

现在我想从上面的句子中只提取NN单词即句子,并希望将其存储到变量中.任何人都可以帮我解决这个问题.

nlp r text-mining pos-tagger opennlp

use*_*599

2015 08-14

5
推荐指数

2
解决办法

1万
查看次数

使用ChatBot订购电影票

我的问题与我刚刚开始研究的项目有关,而且它是一个ChatBot.

我想要构建的机器人有一个非常简单的任务.它必须自动化购买电影票的过程.这是非常接近的域,并且机器人具有对影院数据库的所有必需访问权.当然,如果用户消息与订购电影票的过程无关,那么机器人可以像"我不知道"那样回答.

我已经创建了一个简单的演示,只是为了向少数人展示它,看看他们是否对这样的产品感兴趣.该演示使用简单的DFA方法和一些简单的文本匹配与词干.我在一天内入侵了它,结果发现用户对他们能够成功订购他们想要的门票感到印象深刻.(该演示使用与影院数据库的连接,为用户提供所需的所有信息,以便订购他们想要的门票).

我目前的目标是创建下一个版本,一个更高级的版本,特别是在自然语言理解方面.例如,演示版本要求用户在单个消息中仅提供一个信息,并且无法识别他们是否提供了更多相关信息(例如电影标题和时间).我读到这里有用的技术被称为"帧和插槽语义",它似乎很有希望,但我还没有找到有关如何使用这种方法的任何细节.

而且,我不知道哪种方法最适合改善自然语言理解.在大多数情况下,我考虑:

使用"标准"NLP技术以更好地理解用户消息.例如,同义词数据库,拼写纠正,词性标签,训练一些基于统计的分类器来捕捉相似性和单词之间的其他关系(如果可能的话,在整个句子之间？)等.
使用AIML为会话流建模.我不确定在这样一个封闭的领域中使用AIML是否是个好主意.我从来没有用过它,所以这就是我要问的原因.
使用更"现代"的方法并使用神经网络训练用于用户消息分类的分类器.但是,它可能需要大量标记数据
我不知道的任何其他方法？

哪种方法最适合我的目标？

你知道在哪里可以找到更多有关"框架和插槽语义"如何工作的资源吗？在谈到框架和插槽方法时,我指的是斯坦福的PDF.

nlp machine-learning text-mining chatbot

pka*_*zak

lucky-day

5
推荐指数

1
解决办法

809
查看次数