标签: nlp

是否有一种算法可以告诉两个短语的语义相似性

输入:短语1,短语2

输出:语义相似度值(介于0和1之间),或这两个短语谈论同一事物的概率

algorithm nlp semantics

63
推荐指数

5
解决办法

5万
查看次数

用于确定语句/文本的正面或负面的算法

我需要一种算法来确定一个句子,段落或文章的语气是否为负面或正面......或者更好,如何消极或积极.

例如:

Jason是我见过的最糟糕的SO用户(-10)

Jason是SO用户(0)

Jason是我见过的最好的SO用户(+10)

杰森是最好的吮吸SO(-10)

虽然,在SO,Jason是糟糕的做坏事(+10)

不容易,对吧？:)

我不希望有人向我解释这个算法,但我认为在学术界的某个地方已经有很多类似的东西了.如果你能指点我一些文章或研究,我会喜欢它.

谢谢.

63
推荐指数

5
解决办法

5万
查看次数

了解scikit CountVectorizer中的min_df和max_df

我有五个文本文件,我输入到CountVectorizer.将min_df和max_df指定给CountVectorizer实例时,min/max文档频率的确切含义是什么？它是特定文本文件中单词的频率,还是整个语料库中单词的频率(5个txt文件)？

当min_df和max_df以整数或浮点数形式提供时,它有何不同？

该文档似乎没有提供详尽的解释,也没有提供示例来演示min_df和/或max_df的使用.有人可以提供演示min_df或max_df的解释或示例.

python nlp machine-learning scikit-learn

62
推荐指数

4
解决办法

4万
查看次数

模糊字符串比较

我正在努力完成的是一个程序,它读入一个文件,并根据原始句子比较每个句子.与原始句子完全匹配的句子将得到1分,而总则相反的句子将得到0.所有其他模糊句子将得到1到0之间的等级.

我不确定使用哪个操作来允许我在Python 3中完成此操作.

我已经包含了示例文本,其中文本1是原始文本,其他前面的字符串是比较.

文字:样本

文字1:这是一个黑暗和暴风雨的夜晚.我独自一人坐在红色的椅子上.因为我有三只猫,所以我不是一个人.

文字20:这是一个阴暗而暴风雨的夜晚.我独自一人坐在深红色的椅子上.因为我有三只猫所以我不是完全孤独//应该得分高而不是1分

文字21:这是一个阴暗而暴躁的夜晚.我独自一人坐在深红色的座位上.因为我有三只猫所以我并不是完全孤独//应该得分低于文本20

文字22:我独自一人坐在深红色的教堂上.因为我有三只猫,所以我不是一个人.这是一个阴沉而暴躁的夜晚.//应该低于文本21而不是0

文字24:这是一个黑暗和暴风雨的夜晚.我并不孤单.我没坐在红色的椅子上.我有三只猫.//应该得0分!

python nlp fuzzy-comparison

59
推荐指数

4
解决办法

7万
查看次数

使用NLP和elasticsearch进行语义搜索

我正在尝试使用elasticsearch作为搜索服务器,我的任务是构建一个"语义"搜索功能.从短文本短语如"我有爆管",系统应该推断出用户正在搜索水管工并返回所有在elasticsearch中索引的管道工.

这可以直接在像elasticsearch这样的搜索服务器中完成,还是必须使用自然语言处理(NLP)工具,例如Maui Indexer.我手头的任务,文本分类的确切术语是什么？虽然给定的文本非常短,因为它是一个搜索短语.

57
推荐指数

2
解决办法

3万
查看次数

Porter和Lancaster Stemming算法的主要区别和好处是什么？

我正在研究java中的文档分类任务.

强烈推荐这两种算法,每种算法的优点和缺点是什么,哪些在自然语言处理任务的文献中更常用？

java nlp machine-learning

57
推荐指数

1
解决办法

3万
查看次数

什么编程语言最像自然语言？

我从很多情况下得到了这个问题的想法,我不明白这个人在说什么,什么时候别人不理解我.

因此,"智能"解决方案是说一种计算机语言.:)

我感兴趣的是编程语言可以接近(英语)自然语言.当我说近,我的意思不仅仅是使用单词和句子,而是能够"做"自然语言可以"做"的事情和"做",我的意思是它可以被使用(以非常有限的方式)作为自然语言的替代品.

我知道这是不可能的(是吗？)但我认为这可能很有趣.

nlp programming-languages

56
推荐指数

14
解决办法

2万
查看次数

是否可以根据文本结构猜测用户的心情？

我假设需要使用自然语言处理器来解析文本本身,但是对于算法根据他们编写的文本检测用户心情有什么建议？我怀疑它会非常准确,但我仍然感兴趣.

编辑:我绝不是语言学或自然语言处理方面的专家,所以如果这个问题太笼统或太愚蠢我会道歉.

56
推荐指数

2
解决办法

1万
查看次数

培训情绪分析数据

我在哪里可以获得已被归类为公司域中情绪的正面/负面的文档集？我想要一大堆文件,为公司提供评论,例如分析师和媒体提供的公司评论.

我发现有产品和电影评论的语料库.是否有业务领域的语料库,包括符合业务语言的公司评论？

nlp machine-learning text-analysis training-data sentiment-analysis

56
推荐指数

3
解决办法

4万
查看次数

Python NLTK:SyntaxError:文件中的非ASCII字符'\ xc3'(Senitment Analysis -NLP)

我正在玩NLTK来做一个关于情绪分析的任务.我使用的是Python 2.7.NLTK 3.0和NUMPY 1.9.1版本.

这是代码:

__author__ = 'karan'
import nltk
import re
import sys



def main():
    print("Start");
    # getting the stop words
    stopWords = open("english.txt","r");
    stop_word = stopWords.read().split();
    AllStopWrd = []
    for wd in stop_word:
        AllStopWrd.append(wd);
    print("stop words-> ",AllStopWrd);

    # sample and also cleaning it
    tweet1= 'Love, my new toyí ½í¸í ½í¸#iPhone6. Its good http://t.co/sHY1cab7sx'
    print("old tweet-> ",tweet1)
    tweet1 = tweet1.lower()
    tweet1 = ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)"," ",tweet1).split())
    print(tweet1);
    tw = tweet1.split()
    print(tw)


    #tokenize
    sentences = nltk.word_tokenize(tweet1)
    print("tokenized ->", sentences)


    #remove …

Run Code Online (Sandbox Code Playgroud)

python unicode nlp nltk

55
推荐指数

1
解决办法

8万
查看次数

标签统计

nlp ×10

machine-learning ×3

fuzzy-comparison ×1

java ×1

nltk ×1

programming-languages ×1

scikit-learn ×1

sentiment-analysis ×1

text-analysis ×1

training-data ×1

«
1
…
2
3
4
5
6
…
273
»