我试图找到一个实际上可以找到R文本挖掘包中最常用的两个和三个单词短语的代码(也许还有另一个我不知道的包).我一直在尝试使用标记器,但似乎没有运气.
如果您过去曾处理过类似情况,您是否可以发布经过测试且实际有效的代码?非常感谢!
我正在使用将我的GTIN/EAN查询映射到产品数据的API.
由于返回的数据来自商家产品供稿,因此几乎普遍存在以下情况:
我正在寻找一种程序化方式
请考虑以下单个EAN查询的示例结果:
我的自制方法看起来像这样:
word => global occurence
"Nivea" => 7"Deo" => 5"Deoroller" => 2…"VE" => 1"Nivea Deo" => 12"Nivea Deoroller VE" => 10 …我正在实施一个能够检测文本中人类情感的系统.是否有任何手动注释的数据集可用于监督学习和测试?
以下是一些有趣的数据集:https: //dataturks.com/projects/trending
我刚开始使用Word2vec,我想知道如何才能找到最接近向量的单词.我有这个向量,它是一组向量的平均向量:
array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)
Run Code Online (Sandbox Code Playgroud)
是否有直接的方法在我的训练数据中找到与此向量最相似的单词?
或者唯一的解决方案是计算此向量与训练数据中每个单词的向量之间的余弦相似度,然后选择最接近的一个?
谢谢.
我有一套两种语言的文件:英语和德语.没有关于这些文档的可用元信息,程序只能查看内容.基于此,程序必须决定编写文档的两种语言中的哪一种.
是否有任何"标准"算法可以在几个小时内实现此问题?或者,可以执行此操作的免费.NET库或工具包?我知道LingPipe,但确实如此
这个问题似乎非常困难.我检查了谷歌AJAX语言API(我通过首先搜索这个网站找到),但它是非常糟糕的.对于我指出的六个德语网页,只有一个猜测是正确的.其他猜测是瑞典语,英语,丹麦语和法语......
我想出的一个简单方法是使用一个停用词列表.我的应用程序已经使用德国文档的这样一个列表,以便用Lucene.Net进行分析.如果我的应用程序扫描文档中是否出现任何一种语言的停用词,那么具有更多出现次数的那些将获胜.一个非常天真的方法,可以肯定,但它可能已经足够好了.不幸的是,我没有时间成为自然语言处理方面的专家,尽管这是一个有趣的话题.
我使用文档术语向量来表示文档集合.我使用TF*IDF来计算每个文档向量的术语权重.然后我可以使用这个矩阵来训练文档分类的模型.
我期待将来对新文档进行分类.但是为了对其进行分类,我需要首先将文档转换为文档术语向量,并且向量也应该由TF*IDF值组成.
我的问题是,如何只用一个文件来计算TF*IDF?
据我所知,TF可以根据单个文档本身计算,但IDF只能用文档集合计算.在我目前的实验中,我实际上计算了整个文档集合的TF*IDF值.然后我使用一些文档作为训练集,其他文档作为测试集.
我突然意识到这似乎不适用于现实生活.
因此,实际上有两种微妙的分类方案:
对于1,我们可以组合所有文档,包括标签和不标签.并获得所有这些TF*IDF.这样,即使我们只使用带有标签的文件进行培训,培训结果仍然会包含没有标签的文件的影响.
但我的情况是2.
假设我从训练集语料库的摘要中获得了关于术语T的以下信息:
我应该如下计算看不见的文件D 的ID的IDF 吗?
IDF(t,D)= log((N + 1)/(n + 1))
如果我在新文档中遇到一个之前没有出现在训练语料库中的术语怎么办?我应该如何计算doc-term向量中的权重?
information-retrieval classification machine-learning text-mining document-classification
我正在尝试从一些pdf报告中的表中提取数据.
我已经看到一些使用pdftools和类似软件包的例子我成功获取了文本,但是,我只想提取表格.
有没有办法使用R来识别和提取表格?
想象一下以下问题:
我用函数检查()编写了第一个草稿,如果两个输入文章是相关的则给出"true",否则给出"false".其余的代码(从数据库中选择文章,选择要比较的文章,插入相关的文章)也是完整的.也许你也可以改善休息.但对我来说重要的要点是函数check().因此,如果您可以发布一些改进或完全不同的方法,那将是很棒的.
方法1
<?php
$zeit = time();
function check($str1, $str2){
$minprozent = 60;
similar_text($str1, $str2, $prozent);
$prozent = sprintf("%01.2f", $prozent);
if ($prozent > $minprozent) {
return TRUE;
}
else {
return FALSE;
}
}
$sql1 = "SELECT id, text FROM articles ORDER BY RAND() LIMIT 0, 20";
$sql2 = mysql_query($sql1);
while ($sql3 = mysql_fetch_assoc($sql2)) {
$rel1 = "SELECT id, text, MATCH (text) AGAINST ('".$sql3['text']."') AS score FROM articles WHERE MATCH (text) AGAINST ('".$sql3['text']."') AND …Run Code Online (Sandbox Code Playgroud) 我正在尝试聚集Twitter流.我想把每条推文都放到一个谈论相同主题的集群中.我尝试使用具有tf/idf和余弦相似性的在线聚类算法对流进行聚类,但我发现结果非常糟糕.
使用tf/idf的主要缺点是它聚类关键字相似的文档,因此只能识别几乎相同的文档.例如,考虑以下句子:
1-网站Stackoverflow是一个不错的地方.2- Stackoverflow是一个网站.
由于它们共享许多关键字,因此预先使用两个句子可能会与合理的阈值聚集在一起.但现在考虑以下两句话:
1-网站Stackoverflow是一个不错的地方.2-我定期访问Stackoverflow.
现在通过使用tf/idf,聚类算法将会失败,因为它们只共享一个关键字,即使它们都讨论相同的主题.
我的问题:是否有更好的技术来聚类文件?
我刚开始使用OpenNLP.我需要创建一个简单的训练模型来识别名称实体.
在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind我看到这个简单的文本来训练模型:
<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of Elsevier N.V. , the Dutch publishing group .
<START:person> Rudolph Agnew <END> , 55 years old and former chairman of Consolidated Gold Fields PLC ,
was named a director of this British industrial conglomerate .
Run Code Online (Sandbox Code Playgroud)
问题是两个:
为什么我必须将这些人的姓名放在文本(短语)语境中?为什么不为每一行写一个人名?喜欢:
<START:person> Robert <END>
<START:person> Maria <END>
<START:person> John <END>
Run Code Online (Sandbox Code Playgroud)我怎样才能为该名称添加额外信息?例如,我想为每个名称保存信息男/女.
(我知道有些系统试图理解它读取最后一个字母,比如 …