作为一名工科学生,我想用python制作一个聊天机器人.所以,我搜索了很多,但无法真正找到可以教我的东西,或者给我一些具体信息来构建智能聊天机器人.
我想制作一个聊天机器人,提供类似人类的回应(就像朋友和你聊天一样).我目前期待它只是我笔记本电脑上的一个软件(希望以后在IM,IRC或网站上实现).
所以,我正在寻找一个教程/任何其他信息,这肯定会帮助我完成我的项目.
自然语言处理(NLP),尤其是英语,已经发展成为如果存在"完美"的引理词,词干将成为一种古老技术的阶段.这是因为词干分析器将单词/标记的表面形式改变为一些无意义的词干.
然后,"完美"变形器的定义是值得怀疑的,因为不同的NLP任务需要不同级别的词形还原.例如,在动词/名词/形容词形式之间转换单词.
词干
[in]: having
[out]: hav
Run Code Online (Sandbox Code Playgroud)
Lemmatizers
[in]: having
[out]: have
Run Code Online (Sandbox Code Playgroud)
所以问题是,英语词干器今天有用吗?因为我们有大量的英语词汇化工具
如果不是,那么我们应该如何着手构建强大的lemmatizers可以取nounify
,verbify
,adjectify
和adverbify
预处理?
如何将词形还原任务轻松扩展到与英语具有相似形态结构的其他语言?
我试图通过使用nltk工具包删除停用词来处理用户输入的文本,但是使用停用词删除时,会删除"and","或","not"等字样.我希望在禁用词删除过程之后出现这些单词,因为它们是稍后将文本作为查询处理所需的运算符.我不知道哪些是文本查询中可以成为运算符的单词,我还想从文本中删除不必要的单词.
从Python:tf-idf-cosine:为了找到文档相似性,可以使用tf-idf余弦计算文档相似度.没有导入外部库,是否有任何方法可以计算2个字符串之间的余弦相似度?
s1 = "This is a foo bar sentence ."
s2 = "This sentence is similar to a foo bar sentence ."
s3 = "What is this string ? Totally not related to the other two lines ."
cosine_sim(s1, s2) # Should give high cosine similarity
cosine_sim(s1, s3) # Shouldn't give high cosine similarity value
cosine_sim(s2, s3) # Shouldn't give high cosine similarity value
Run Code Online (Sandbox Code Playgroud) 我正在寻找一个用于模糊字符串搜索的高性能Java库.
有许多算法可以找到类似的字符串,Levenshtein距离,Daitch-Mokotoff Soundex,n-gram等.
存在哪些Java实现?他们的利弊?我知道Lucene,任何其他解决方案或Lucene最好吗?
我找到了这些,有没有人有过这些经历?
可能重复:
你如何实现"你的意思"?
我正在编写一个应用程序,我需要类似于Google的功能"你的意思是什么?" 搜索引擎使用的功能:
是否有可用于此类事情的源代码,或者我在哪里可以找到有助于我构建自己的文章?
我正在寻找一些句子分析(主要是针对Twitter应用程序)并推断出一些一般特征.Ruby中有这种东西有什么好的自然语言处理库吗?
类似于是否有一个很好的自然语言处理库,但对于Ruby.我更喜欢非常一般的东西,但是任何领导都会受到赞赏!
输入:短语1,短语2
输出:语义相似度值(介于0和1之间),或这两个短语谈论同一事物的概率
我需要一种算法来确定一个句子,段落或文章的语气是否为负面或正面......或者更好,如何消极或积极.
例如:
Jason是我见过的最糟糕的SO用户(-10)
Jason是SO用户(0)
Jason是我见过的最好的SO用户(+10)
杰森是最好的吮吸SO(-10)
虽然,在SO,Jason是糟糕的做坏事(+10)
不容易,对吧?:)
我不希望有人向我解释这个算法,但我认为在学术界的某个地方已经有很多类似的东西了.如果你能指点我一些文章或研究,我会喜欢它.
谢谢.
nlp ×10
algorithm ×3
python ×3
chatbot ×1
fuzzy-search ×1
java ×1
nltk ×1
ruby ×1
semantics ×1
similarity ×1
stemming ×1
stop-words ×1
string ×1
word2vec ×1
wordnet ×1