我一直在开发一个投资组合管理工具的内部网站.有很多文本数据,公司名称等.我对一些搜索引擎能够快速回复查询的印象非常深刻,"你的意思是:xxxx".
我需要能够智能地进行用户查询并不仅响应原始搜索结果,还要回答"你的意思是?" 当有极有可能的替代答案等时作出回应
[我正在开发ASP.NET(VB - 不要反对我!)]
更新:好的,如果没有数百万"无偿用户",我怎么能模仿这个?
这里演示的斯坦福NLP 给出了这样的输出:
Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./.
Run Code Online (Sandbox Code Playgroud)
部分语音标签是什么意思?我无法找到正式名单.它是斯坦福自己的系统,还是使用通用标签?(JJ
例如,是什么?)
另外,例如,当我迭代句子,寻找名词时,我最终会做一些事情,比如查看是否有标签.contains('N')
.这感觉很弱.有没有更好的方法以编程方式搜索某个词性?
我需要找到一种相当有效的方法来检测单词中的音节.例如,
隐形 - > in-vi-sib-le
可以使用一些音节化规则:
V CV VC CVC CCV CCCV CVCC
*其中V是元音,C是辅音.例如,
发音(5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC)
我尝试过很少的方法,其中包括使用正则表达式(只有你想要计算音节才有用)或硬编码规则定义(证明效率非常低效的强力方法),最后使用有限状态自动机(没有任何有用的结果).
我的应用程序的目的是创建一个给定语言的所有音节的字典.该词典稍后将用于拼写检查应用程序(使用贝叶斯分类器)和文本到语音合成.
如果除了我之前的方法之外,我可以提供另一种方法来解决这个问题.
我在Java工作,但C/C++,C#,Python,Perl ......中的任何提示都适合我.
在iOS电子邮件客户端中,当电子邮件包含日期,时间或位置时,文本将成为超链接,只需点击链接即可创建约会或查看地图.它不仅适用于英语电子邮件,也适用于其他语言.我喜欢这个功能,想了解他们是如何做到的.
这样做的天真方法是拥有许多正则表达式并运行它们.但是我不能很好地扩展它并且只适用于特定的语言或日期格式等.我认为Apple必须使用一些机器学习的概念来提取实体(晚上8点,晚上8点,8点, 0800,20:00,20h,20h00,2000等).
知道Apple如何能够在其电子邮件客户端中如此快速地提取实体?您将应用什么机器学习算法来完成这样的任务?
nlp machine-learning named-entity-recognition information-extraction
可能重复:
Google如何"你的意思是?"算法有效吗?
假设您的网站中已有搜索系统.你如何实现<spell_checked_word>
像谷歌在某些搜索查询中所说的"你的意思是:" 吗?
我刚刚开始使用NLTK,我不太明白如何从文本中获取单词列表.如果我使用nltk.word_tokenize()
,我会得到一个单词和标点符号列表.我只需要单词代替.我怎样才能摆脱标点符号?也word_tokenize
没有多话来:点加到硬道理.
我想知道哪种编程语言更适合自然语言处理.Java还是Python?我找到了很多关于它的问题和答案.但我仍然迷失在选择使用哪一个.
我想知道哪个NLP库用于Java,因为有很多库(LingPipe,GATE,OpenNLP,StandfordNLP).对于Python,大多数程序员推荐使用NLTK.
但是,如果我要从非结构化数据(只是自由形成的简单英文文本)中进行一些文本处理或信息提取以获得一些有用的信息,那么最佳选择是什么?Java还是Python?合适的图书馆
更新
我想要做的是从非结构化数据中提取有用的产品信息(例如,用户制作不同形式的广告,关于手机或笔记本电脑的标准不是很标准)
我已经尝试过PorterStemmer和Snowball,但两个都不能用于所有单词,缺少一些非常常见的单词.
我的测试词是:" 猫跑仙人掌仙人掌仙人掌社区社区 ",两者都不到一半.
也可以看看:
我什么时候使用?
另外...... NLTK的词形还原取决于词性?如果它是不是更准确?
nlp ×10
python ×3
java ×2
nltk ×2
algorithm ×1
hyphenation ×1
stanford-nlp ×1
stemming ×1
text-search ×1
tokenize ×1