标签: text-mining

是否有用于确定文本与主题的相关性的算法?

我想知道可以用什么来确定页面与游戏,电影等主题的相关性.

在这个领域是否有一些研究,或者只计算一些相关词出现的次数?

nlp information-retrieval text-mining relevance

1
推荐指数
1
解决办法
1250
查看次数

NLP - 判刑的主题

我试图得到一个句子的主要主题,即一个句子在说什么(不是可能不同的语法主题).

到目前为止,我有

1.)Java中的OpenNLP,它给我句子检测,POS标记,解析,标记器和名字查找器.

2.)MatlParser,stanford Parser - 它可以通过依赖解析给出一个简单句子的语法主题.

我认为名词或名词短语总是在更一般意义上的主语,但句子可以有许多名词和名词短语.任何帮助将非常感激.

text nlp text-mining stanford-nlp opennlp

1
推荐指数
1
解决办法
1665
查看次数

在R的TM包中修改停用词

我在修改R的TM包中的english.dat stopword文件时遇到问题.我添加到它的任何东西都是无法识别的.我尝试在文件的开头添加,中间,结尾,仍然无效.仅识别文件的原始文本.我尝试将文件保存为ASCI,UTF,UTF-8,但无济于事.

有任何想法吗?

谢谢

r text-mining stop-words tm

1
推荐指数
1
解决办法
2353
查看次数

R文本挖掘 - 处理复数

我正在学习R中的文本挖掘并取得了相当不错的成功.但我仍然坚持如何处理复数.即我希望"民族"和"民族"被视为同一个词,理想情况下,"词典"和"词典"被视为同一个词.

x <- '"nation" and "nations" to be counted as the same word and ideally "dictionary" and "dictionaries" to be counted as the same word.'
Run Code Online (Sandbox Code Playgroud)

r text-mining

1
推荐指数
1
解决办法
2140
查看次数

计算从4个mysql表中检索的所有可能文本对的余弦相似度

我有4个带有架构的表(app,text_id,title,text).现在我想计算所有可能的文本对(标题和文本连接)之间的余弦相似度,并最终将它们存储在带有字段的csv文件中(app1,app2,text_id1,text1,text_id2,text2,cosine_similarity).

由于有很多可能的组合,它应该运行非常有效.这里最常见的方法是什么?我很感激任何指针.

编辑:虽然提供的参考可能会触及我的问题,但我仍然无法弄清楚如何处理这个问题.有人可以提供有关完成此任务的策略的更多详细信息吗?在计算的余弦相似度旁边,我还需要相应的文本对作为输出.

python numpy text-mining cosine-similarity scikit-learn

1
推荐指数
1
解决办法
2819
查看次数

NLP - 识别哪个形容词描述句子中的哪个名词

我需要一种方法/算法来识别哪个形容词与句子中的哪个名词有关.

样本输入:

"The product itself is good however this company has a terrible service"
Run Code Online (Sandbox Code Playgroud)

作为输出,我想得到类似的东西:

[product, good]
[service, terrible]
Run Code Online (Sandbox Code Playgroud)

你能指点一些有助于完成这项任务的算法/库吗?

nlp text-mining data-science

1
推荐指数
1
解决办法
896
查看次数

我怎样才能使用R将英语单词(例如:'run'和'ran')语义化,以使它们全部处于同一时态?

我希望将英语单词语义化,使得所有单词都转换为相同的时态.例如:

c("ran","run","running") 
Run Code Online (Sandbox Code Playgroud)

应该成为c("run","run","run").

我已经探索了R包,如tm,wordnet,RTextTools和Snowball C; 但所有这些都会产生输出c("ran","run","run").如您所见,它们不会将"运行"转换为"运行".

nlp r text-mining string-matching lemmatization

1
推荐指数
1
解决办法
416
查看次数

使用正则表达式提取不同格式的日期并对其进行排序 - 熊猫

我是文本挖掘的新手,我需要从*.txt文件中提取日期并对它们进行排序.日期在句子(每一行)之间,其格式可能如下:

04/20/2009; 04/20/09; 4/20/09; 4/3/09
Mar-20-2009; Mar 20, 2009; March 20, 2009; Mar. 20, 2009; Mar 20 2009;
20 Mar 2009; 20 March 2009; 20 Mar. 2009; 20 March, 2009
Mar 20th, 2009; Mar 21st, 2009; Mar 22nd, 2009
Feb 2009; Sep 2009; Oct 2010
6/2008; 12/2009
2009; 2010
Run Code Online (Sandbox Code Playgroud)

如果缺少那一天,请考虑1号,如果缺少月份,请考虑1月份.

我的想法是提取所有日期并将其转换为mm/dd/yyyy格式.但是我对如何找到和替换paterns有点怀疑.这就是我所做的:

import pandas as pd

doc = []
with open('dates.txt') as file:
    for line in file:
        doc.append(line)

df = pd.Series(doc)

df2 = pd.DataFrame(df,columns=['text'])

def myfunc(x):
    if len(x)==4:
        x = '01/01/'+x …
Run Code Online (Sandbox Code Playgroud)

python date text-mining dataframe pandas

1
推荐指数
1
解决办法
3307
查看次数

R - 正则表达式以匹配除URL内部之外的所有标点符号

基本上,我正在寻找一个正则表达式来选择所有标点符号,除了URL内的标点符号.

本质上,如果我有字符串:

This is a URL: https://test.com/ThisIsAURL !
Run Code Online (Sandbox Code Playgroud)

并删除它应该成为的所有匹配:

This is a URL https://test.com/ThisIsAURL
Run Code Online (Sandbox Code Playgroud)

gsub("[[:punct:]]", "", x)删除所有标点符号,包括URL.我尝试使用负面外观来选择https后使用的标点符号,但这是不成功的.

在我需要的情况下,所有URL都是Twitter链接式URL https://t.co/.他们没有结束.com.他们也没有一个以上的背斜塞(/ThisIsAURL).但是,理想的是,我希望正则表达式尽可能多样化,能够在任何URL上成功执行此操作.

regex r text-mining

1
推荐指数
1
解决办法
1002
查看次数

从文本中删除所有标点符号,包括用于tm包的撇号

我有一个由Tweets(只是消息文本)组成的向量,我正在清理这些向量以用于文本挖掘。我removePunctuation从这样的tm包中使用过:

clean_tweet_text = removePunctuation(tweet_text)
Run Code Online (Sandbox Code Playgroud)

这样就产生了一个矢量,除了撇号,所有标点符号都从文本中删除了,因为没有注册带有撇号的单词,这破坏了我的关键字搜索。例如,我的一个关键字是,climate但是如果有一条推文'climate,则不会被计算在内。

如何删除向量中所有的撇号/单引号?

这是dput可复制示例的标头:

c("expert briefing on climatechange disarmament sdgs nmun httpstco5gqkngpkap", 
"who uses nasa earth science data he looks at impact of aerosols on climateamp weather httpstcof4azsiqkw1 https…", 
"rt oddly enough some republicans think climate change is real oddly enough… httpstcomtlfx1mnuf uniteblue https…", 
"better dead than red bill gates says that only socialism can save us from climate change httpstcopypqmd1fok", 
"i see …
Run Code Online (Sandbox Code Playgroud)

r text-mining tm

1
推荐指数
1
解决办法
225
查看次数