输入:短语1,短语2
输出:语义相似度值(介于0和1之间),或这两个短语谈论同一事物的概率
我需要一种算法来确定一个句子,段落或文章的语气是否为负面或正面......或者更好,如何消极或积极.
例如:
Jason是我见过的最糟糕的SO用户(-10)
Jason是SO用户(0)
Jason是我见过的最好的SO用户(+10)
杰森是最好的吮吸SO(-10)
虽然,在SO,Jason是糟糕的做坏事(+10)
不容易,对吧?:)
我不希望有人向我解释这个算法,但我认为在学术界的某个地方已经有很多类似的东西了.如果你能指点我一些文章或研究,我会喜欢它.
谢谢.
我有五个文本文件,我输入到CountVectorizer.将min_df和max_df指定给CountVectorizer实例时,min/max文档频率的确切含义是什么?它是特定文本文件中单词的频率,还是整个语料库中单词的频率(5个txt文件)?
当min_df和max_df以整数或浮点数形式提供时,它有何不同?
该文档似乎没有提供详尽的解释,也没有提供示例来演示min_df和/或max_df的使用.有人可以提供演示min_df或max_df的解释或示例.
我正在努力完成的是一个程序,它读入一个文件,并根据原始句子比较每个句子.与原始句子完全匹配的句子将得到1分,而总则相反的句子将得到0.所有其他模糊句子将得到1到0之间的等级.
我不确定使用哪个操作来允许我在Python 3中完成此操作.
我已经包含了示例文本,其中文本1是原始文本,其他前面的字符串是比较.
文字1:这是一个黑暗和暴风雨的夜晚.我独自一人坐在红色的椅子上.因为我有三只猫,所以我不是一个人.
文字20:这是一个阴暗而暴风雨的夜晚.我独自一人坐在深红色的椅子上.因为我有三只猫所以我不是完全孤独//应该得分高而不是1分
文字21:这是一个阴暗而暴躁的夜晚.我独自一人坐在深红色的座位上.因为我有三只猫所以我并不是完全孤独//应该得分低于文本20
文字22:我独自一人坐在深红色的教堂上.因为我有三只猫,所以我不是一个人.这是一个阴沉而暴躁的夜晚.//应该低于文本21而不是0
文字24:这是一个黑暗和暴风雨的夜晚.我并不孤单.我没坐在红色的椅子上.我有三只猫.//应该得0分!
我正在尝试使用elasticsearch作为搜索服务器,我的任务是构建一个"语义"搜索功能.从短文本短语如"我有爆管",系统应该推断出用户正在搜索水管工并返回所有在elasticsearch中索引的管道工.
这可以直接在像elasticsearch这样的搜索服务器中完成,还是必须使用自然语言处理(NLP)工具,例如Maui Indexer.我手头的任务,文本分类的确切术语是什么?虽然给定的文本非常短,因为它是一个搜索短语.
我正在研究java中的文档分类任务.
强烈推荐这两种算法,每种算法的优点和缺点是什么,哪些在自然语言处理任务的文献中更常用?
我从很多情况下得到了这个问题的想法,我不明白这个人在说什么,什么时候别人不理解我.
因此,"智能"解决方案是说一种计算机语言.:)
我感兴趣的是编程语言可以接近(英语)自然语言.当我说近,我的意思不仅仅是使用单词和句子,而是能够"做"自然语言可以"做"的事情和"做",我的意思是它可以被使用(以非常有限的方式)作为自然语言的替代品.
我知道这是不可能的(是吗?)但我认为这可能很有趣.
我假设需要使用自然语言处理器来解析文本本身,但是对于算法根据他们编写的文本检测用户心情有什么建议?我怀疑它会非常准确,但我仍然感兴趣.
编辑:我绝不是语言学或自然语言处理方面的专家,所以如果这个问题太笼统或太愚蠢我会道歉.
我在哪里可以获得已被归类为公司域中情绪的正面/负面的文档集?我想要一大堆文件,为公司提供评论,例如分析师和媒体提供的公司评论.
我发现有产品和电影评论的语料库.是否有业务领域的语料库,包括符合业务语言的公司评论?
nlp machine-learning text-analysis training-data sentiment-analysis
我正在玩NLTK来做一个关于情绪分析的任务.我使用的是Python 2.7.NLTK 3.0和NUMPY 1.9.1版本.
这是代码:
__author__ = 'karan'
import nltk
import re
import sys
def main():
print("Start");
# getting the stop words
stopWords = open("english.txt","r");
stop_word = stopWords.read().split();
AllStopWrd = []
for wd in stop_word:
AllStopWrd.append(wd);
print("stop words-> ",AllStopWrd);
# sample and also cleaning it
tweet1= 'Love, my new toyí ½í¸í ½í¸#iPhone6. Its good http://t.co/sHY1cab7sx'
print("old tweet-> ",tweet1)
tweet1 = tweet1.lower()
tweet1 = ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)"," ",tweet1).split())
print(tweet1);
tw = tweet1.split()
print(tw)
#tokenize
sentences = nltk.word_tokenize(tweet1)
print("tokenized ->", sentences)
#remove …
Run Code Online (Sandbox Code Playgroud)