标签: text-mining

使用R TM包找到2和3个单词的短语

我试图找到一个实际上可以找到R文本挖掘包中最常用的两个和三个单词短语的代码(也许还有另一个我不知道的包).我一直在尝试使用标记器,但似乎没有运气.

如果您过去曾处理过类似情况,您是否可以发布经过测试且实际有效的代码?非常感谢!

r data-mining text-mining

24
推荐指数
3
解决办法
3万
查看次数

从多个句子中选择或生成规范变体

我正在使用将我的GTIN/EAN查询映射到产品数据的API.

由于返回的数据来自商家产品供稿,因此几乎普遍存在以下情况:

  • 每个GTIN多个结果
  • 产品的标题几乎都是非结构化的
  • 产品的标题被"污染"
    • SEO相关的东西,
    • 有关数量的信息,
    • "买二送一"优惠,
    • 等等

我正在寻找一种程序化方式

  • 选择 "最干净"/最规范的版本
  • 或者生成一个代表"最低公分母"的新的.

请考虑以下单个EAN查询的示例结果:

  • 妮维雅Deo Roll-On Dry Impact for Men
  • NIVEA DEO滚动干/ blau
  • Nivea Deo Roll-On干式冲击男士,50毫升,3升装(3 x 50毫升)
  • Nivea Deo Roll on Dry/blau 50 ml
  • Nivea Deoroller 50ml干燥男士blau Mindestabnahme:6Stück(1 VE)
  • NIVEA Deoroller,对男性的干燥影响
  • NIVEA DEO干燥/ blau_50毫升

我的自制方法看起来像这样:

  • 基本清理:
    • 小写标题,
    • 剥去过多的空白
    • 抛出明显的停顿词,如"买"和"点击"
  • 为...构建一个数组 word => global occurence
    • "Nivea" => 7
    • "Deo" => 5
    • "Deoroller" => 2
    • "VE" => 1
  • 计算每个标题的"累积字值"
    • "Nivea Deo" => 12
    • "Nivea Deoroller VE" => 10 …

php nlp text-mining information-extraction

23
推荐指数
1
解决办法
746
查看次数

用于文本中情绪检测的数据集

我正在实施一个能够检测文本中人类情感的系统.是否有任何手动注释的数据集可用于监督学习和测试?

以下是一些有趣的数据集:https: //dataturks.com/projects/trending

database nlp dataset text-mining emotion

23
推荐指数
1
解决办法
2万
查看次数

如何使用word2vec找到最接近向量的单词

我刚开始使用Word2vec,我想知道如何才能找到最接近向量的单词.我有这个向量,它是一组向量的平均向量:

array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)
Run Code Online (Sandbox Code Playgroud)

是否有直接的方法在我的训练数据中找到与此向量最相似的单词?

或者唯一的解决方案是计算此向量与训练数据中每个单词的向量之间的余弦相似度,然后选择最接近的一个?

谢谢.

python text-mining data-analysis word2vec

22
推荐指数
3
解决办法
2万
查看次数

如何确定文档的(自然)语言?

我有一套两种语言的文件:英语和德语.没有关于这些文档的可用元信息,程序只能查看内容.基于此,程序必须决定编写文档的两种语言中的哪一种.

是否有任何"标准"算法可以在几个小时内实现此问题?或者,可以执行此操作的免费.NET库或工具包?我知道LingPipe,但确实如此

  1. Java的
  2. 不适用于"半商业"用途

这个问题似乎非常困难.我检查了谷歌AJAX语言API(我通过首先搜索这个网站找到),但它是非常糟糕的.对于我指出的六个德语网页,只有一个猜测是正确的.其他猜测是瑞典语,英语,丹麦语和法语......

我想出的一个简单方法是使用一个停用词列表.我的应用程序已经使用德国文档的这样一个列表,以便用Lucene.Net进行分析.如果我的应用程序扫描文档中是否出现任何一种语言的停用词,那么具有更多出现次数的那些将获胜.一个非常天真的方法,可以肯定,但它可能已经足够好了.不幸的是,我没有时间成为自然语言处理方面的专家,尽管这是一个有趣的话题.

.net nlp text-mining

21
推荐指数
4
解决办法
6400
查看次数

如何计算要分类的单个新文档的TF*IDF?

我使用文档术语向量来表示文档集合.我使用TF*IDF来计算每个文档向量的术语权重.然后我可以使用这个矩阵来训练文档分类的模型.

我期待将来对新文档进行分类.但是为了对其进行分类,我需要首先将文档转换为文档术语向量,并且向量也应该由TF*IDF值组成.

我的问题是,如何只用一个文件来计算TF*IDF?

据我所知,TF可以根据单个文档本身计算,但IDF只能用文档集合计算.在我目前的实验中,我实际上计算了整个文档集合的TF*IDF值.然后我使用一些文档作为训练集,其他文档作为测试集.

我突然意识到这似乎不适用于现实生活.

添加1

因此,实际上有两种微妙的分类方案:

  1. 对某些内容已知但标签未知的文件进行分类.
  2. 对一些完全看不见的文件进行分类.

对于1,我们可以组合所有文档,包括标签和不标签.并获得所有这些TF*IDF.这样,即使我们只使用带有标签的文件进行培训,培训结果仍然会包含没有标签的文件的影响.

但我的情况是2.

假设我从训练集语料库的摘要中获得了关于术语T的以下信息:

  • 训练集中T的文档计数为n
  • 培训文件总数为N.

我应该如下计算看不见的文件D 的ID的IDF 吗?

IDF(t,D)= log((N + 1)/(n + 1))

添加2

如果我在新文档中遇到一个之前没有出现在训练语料库中的术语怎么办?我应该如何计算doc-term向量中的权重?

information-retrieval classification machine-learning text-mining document-classification

21
推荐指数
1
解决办法
1万
查看次数

使用R识别PDF表

我正在尝试从一些pdf报告中的表中提取数据.

我已经看到一些使用pdftools和类似软件包的例子我成功获取了文本,但是,我只想提取表格.

有没有办法使用R来识别和提取表格?

r text-mining pdf-scraping

20
推荐指数
2
解决办法
1万
查看次数

最好的聚类算法?(简单解释)

想象一下以下问题:

  • 你有一个数据库,在一个名为"文章"的表中包含大约20,000个文本
  • 您希望使用聚类算法连接相关的文件,以便一起显示相关文章
  • 算法应该做平面聚类(不是分层)
  • 相关文章应插入表"相关"
  • 聚类算法应根据文本决定两篇或多篇文章是否相关
  • 我想用PHP编写代码,但伪代码或其他编程语言的例子也可以

我用函数检查()编写了第一个草稿,如果两个输入文章是相关的则给出"true",否则给出"false".其余的代码(从数据库中选择文章,选择要比较的文章,插入相关的文章)也是完整的.也许你也可以改善休息.但对我来说重要的要点是函数check().因此,如果您可以发布一些改进或完全不同的方法,那将是很棒的.

方法1

<?php
$zeit = time();
function check($str1, $str2){
    $minprozent = 60;
    similar_text($str1, $str2, $prozent);
    $prozent = sprintf("%01.2f", $prozent);
    if ($prozent > $minprozent) {
        return TRUE;
    }
    else {
        return FALSE;
    }
}
$sql1 = "SELECT id, text FROM articles ORDER BY RAND() LIMIT 0, 20";
$sql2 = mysql_query($sql1);
while ($sql3 = mysql_fetch_assoc($sql2)) {
    $rel1 = "SELECT id, text, MATCH (text) AGAINST ('".$sql3['text']."') AS score FROM articles WHERE MATCH (text) AGAINST ('".$sql3['text']."') AND …
Run Code Online (Sandbox Code Playgroud)

algorithm text cluster-analysis data-mining text-mining

19
推荐指数
2
解决办法
9942
查看次数

比tf/idf和余弦相似性更好的文本文档聚类?

我正在尝试聚集Twitter流.我想把每条推文都放到一个谈论相同主题的集群中.我尝试使用具有tf/idf和余弦相似性的在线聚类算法对流进行聚类,但我发现结果非常糟糕.

使用tf/idf的主要缺点是它聚类关键字相似的文档,因此只能识别几乎相同的文档.例如,考虑以下句子:

1-网站Stackoverflow是一个不错的地方.2- Stackoverflow是一个网站.

由于它们共享许多关键字,因此预先使用两个句子可能会与合理的阈值聚集在一起.但现在考虑以下两句话:

1-网站Stackoverflow是一个不错的地方.2-我定期访问Stackoverflow.

现在通过使用tf/idf,聚类算法将会失败,因为它们只共享一个关键字,即使它们都讨论相同的主题.

我的问题:是否有更好的技术来聚类文件?

cluster-analysis machine-learning data-mining text-mining

18
推荐指数
3
解决办法
1万
查看次数

如何在OpenNLP中创建一个良好的NER培训模型?

我刚开始使用OpenNLP.我需要创建一个简单的训练模型来识别名称实体.

在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind我看到这个简单的文本来训练模型:

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of Elsevier N.V. , the Dutch publishing group .
<START:person> Rudolph Agnew <END> , 55 years old and former chairman of Consolidated Gold Fields PLC ,
    was named a director of this British industrial conglomerate .
Run Code Online (Sandbox Code Playgroud)

问题是两个:

  • 为什么我必须将这些人的姓名放在文本(短语)语境中?为什么不为每一行写一个人名?喜欢:

    <START:person> Robert <END>
    
    <START:person> Maria <END>
    
    <START:person> John <END>
    
    Run Code Online (Sandbox Code Playgroud)
  • 我怎样才能为该名称添加额外信息?例如,我想为每个名称保存信息男/女.

(我知道有些系统试图理解它读取最后一个字母,比如 …

java nlp named-entity-recognition text-mining opennlp

18
推荐指数
1
解决办法
5114
查看次数