标签: nlp

Google如何"你的意思是？" 算法工作？

我一直在开发一个投资组合管理工具的内部网站.有很多文本数据,公司名称等.我对一些搜索引擎能够快速回复查询的印象非常深刻,"你的意思是:xxxx".

我需要能够智能地进行用户查询并不仅响应原始搜索结果,还要回答"你的意思是？" 当有极有可能的替代答案等时作出回应

[我正在开发ASP.NET(VB - 不要反对我!)]

更新:好的,如果没有数百万"无偿用户",我怎么能模仿这个？

为每个"已知"或"正确"术语生成拼写错误并执行查找？
其他一些更优雅的方法？

algorithm nlp spell-checking machine-learning text-search

And*_*rry

2010 12-07

426
推荐指数

7
解决办法

8万
查看次数

如何计算两个文本文档之间的相似度？

我正在寻找一个NLP项目,使用任何编程语言(虽然Python将是我的偏好).

我想拿两份文件,确定它们有多相似.

nlp

Rei*_*rne

2019 02-20

186
推荐指数

8
解决办法

15万
查看次数

Java Stanford NLP:部分语音标签？

这里演示的斯坦福NLP 给出了这样的输出:

Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./.

Run Code Online (Sandbox Code Playgroud)

部分语音标签是什么意思？我无法找到正式名单.它是斯坦福自己的系统,还是使用通用标签？(JJ例如,是什么？)

另外,例如,当我迭代句子,寻找名词时,我最终会做一些事情,比如查看是否有标签.contains('N').这感觉很弱.有没有更好的方法以编程方式搜索某个词性？

java nlp part-of-speech stanford-nlp

Nic*_*ner

2015 08-11

164
推荐指数

6
解决办法

9万
查看次数

检测单词中的音节

我需要找到一种相当有效的方法来检测单词中的音节.例如,

隐形 - > in-vi-sib-le

可以使用一些音节化规则:

V CV VC CVC CCV CCCV CVCC

*其中V是元音,C是辅音.例如,

发音(5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC)

我尝试过很少的方法,其中包括使用正则表达式(只有你想要计算音节才有用)或硬编码规则定义(证明效率非常低效的强力方法),最后使用有限状态自动机(没有任何有用的结果).

我的应用程序的目的是创建一个给定语言的所有音节的字典.该词典稍后将用于拼写检查应用程序(使用贝叶斯分类器)和文本到语音合成.

如果除了我之前的方法之外,我可以提供另一种方法来解决这个问题.

我在Java工作,但C/C++,C#,Python,Perl ......中的任何提示都适合我.

nlp spell-checking hyphenation

use*_*705

2015 02-20

130
推荐指数

10
解决办法

6万
查看次数

Apple如何在电子邮件中查找日期,时间和地址？

在iOS电子邮件客户端中,当电子邮件包含日期,时间或位置时,文本将成为超链接,只需点击链接即可创建约会或查看地图.它不仅适用于英语电子邮件,也适用于其他语言.我喜欢这个功能,想了解他们是如何做到的.

这样做的天真方法是拥有许多正则表达式并运行它们.但是我不能很好地扩展它并且只适用于特定的语言或日期格式等.我认为Apple必须使用一些机器学习的概念来提取实体(晚上8点,晚上8点,8点, 0800,20:00,20h,20h00,2000等).

知道Apple如何能够在其电子邮件客户端中如此快速地提取实体？您将应用什么机器学习算法来完成这样的任务？

nlp machine-learning named-entity-recognition information-extraction

Mar*_*tin

2012 10-01

128
推荐指数

4
解决办法

2万
查看次数

你如何实现"你的意思"？

可能重复:
Google如何"你的意思是？"算法有效吗？

假设您的网站中已有搜索系统.你如何实现<spell_checked_word>像谷歌在某些搜索查询中所说的"你的意思是:" 吗？

nlp

pek*_*pek

2017 05-23

112
推荐指数

7
解决办法

2万
查看次数

如何使用NLTK tokenizer摆脱标点符号？

我刚刚开始使用NLTK,我不太明白如何从文本中获取单词列表.如果我使用nltk.word_tokenize(),我会得到一个单词和标点符号列表.我只需要单词代替.我怎样才能摆脱标点符号？也word_tokenize没有多话来:点加到硬道理.

python nlp tokenize nltk

liz*_*isk

2013 03-21

111
推荐指数

8
解决办法

15万
查看次数

用于自然语言处理的Java或Python

我想知道哪种编程语言更适合自然语言处理.Java还是Python？我找到了很多关于它的问题和答案.但我仍然迷失在选择使用哪一个.

我想知道哪个NLP库用于Java,因为有很多库(LingPipe,GATE,OpenNLP,StandfordNLP).对于Python,大多数程序员推荐使用NLTK.

但是,如果我要从非结构化数据(只是自由形成的简单英文文本)中进行一些文本处理或信息提取以获得一些有用的信息,那么最佳选择是什么？Java还是Python？合适的图书馆

更新

我想要做的是从非结构化数据中提取有用的产品信息(例如,用户制作不同形式的广告,关于手机或笔记本电脑的标准不是很标准)

python java nlp

Jin*_*ing

2014 05-10

111
推荐指数

2
解决办法

6万
查看次数

我如何做词干或词形还原？

我已经尝试过PorterStemmer和Snowball,但两个都不能用于所有单词,缺少一些非常常见的单词.

我的测试词是:" 猫跑仙人掌仙人掌仙人掌社区社区 ",两者都不到一半.

也可以看看:

nlp stemming lemmatization

man*_*ock

2017 05-23

109
推荐指数

8
解决办法

13万
查看次数

词汇化与词干化之间的真正区别是什么？

我什么时候使用？

另外...... NLTK的词形还原取决于词性？如果它是不是更准确？

python nlp nltk lemmatization

TIM*_*MEX

lucky-day

108
推荐指数

8
解决办法

6万
查看次数

标签统计

nlp ×10

python ×3

java ×2

lemmatization ×2

machine-learning ×2

nltk ×2

spell-checking ×2

algorithm ×1

hyphenation ×1

information-extraction ×1

named-entity-recognition ×1

part-of-speech ×1

stanford-nlp ×1

stemming ×1

text-search ×1

tokenize ×1

标签 统计

标签统计