相关疑难解决方法(0)

从文本内容生成标记

我很好奇是否存在通过使用一些权重计算,出现率或其他工具从给定文本生成关键字/标签的算法/方法.

另外,如果您为此指出任何基于Python的解决方案/库,我将不胜感激.

谢谢

python tags nlp machine-learning nltk

45
推荐指数
3
解决办法
2万
查看次数

如何从给定文本中自动识别标签(关键字)?

它的行为应该像Firefox的Delicious工具栏一样; 它列出了可以点击的标签.效果如下:

在此输入图像描述

代码应该能够找到文本的关键词.任何好的算法或开源项目推荐?

我找到了这篇文章,但对于我的具体需求来说有点过于笼统.

algorithm full-text-search text-analysis

5
推荐指数
1
解决办法
4285
查看次数

百分比相似性分析(Java)

我有以下情况:

字符串a ="网络爬虫是一种自动浏览万维网互联网的计算机程序"; 字符串b ="Web Crawler计算机程序浏览万维网";

是否有任何想法或标准算法来计算相似性的百分比?

例如,在上述情况下,通过手动查看估计的相似度应为90%++.

我的想法是对两个字符串进行标记,并比较匹配的标记数量.类似的东西(7个令牌/ 1个令牌)*100.但是,当然,这种方法根本没有效果.比较匹配的字符数也似乎无效....

任何人都可以给一些指导???

以上是我的项目Plagiarism Analyzer的一部分.

因此,匹配的单词将完全相同而没有任何同义词.

在这种情况下唯一的问题是如何计算相当准确的相似性百分比.

非常感谢任何帮助.

java similarity

4
推荐指数
1
解决办法
3993
查看次数

如何从文本文档中查找常用短语

我有一个包含大量评论/句子的文本文件,我想以某种方式找到文档本身中重复的最常见短语。我试着用 NLTK 稍微摆弄一下,我发现了这个线程:如何从一系列文本条目中提取常见/重要的短语

然而,在尝试之后,我得到了如下奇怪的结果:

>>> finder.apply_freq_filter(3)
>>> finder.nbest(bigram_measures.pmi, 10)
[('m', 'e'), ('t', 's')]
Run Code Online (Sandbox Code Playgroud)

在另一个“这很有趣”这个短语很常见的文件中,我得到一个空列表 []。

我该怎么做呢?

这是我的完整代码:

import nltk
from nltk.collocations import *
bigram_measures = nltk.collocations.BigramAssocMeasures()
trigram_measures = nltk.collocations.TrigramAssocMeasures()

# change this to read in your data
finder = BigramCollocationFinder.from_words('MkXVM6ad9nI.txt')

# only bigrams that appear 3+ times
finder.apply_freq_filter(3)

# return the 10 n-grams with the highest PMI
print finder.nbest(bigram_measures.pmi, 10)
Run Code Online (Sandbox Code Playgroud)

python nltk

1
推荐指数
1
解决办法
3066
查看次数