标签: nlp

寻找Java拼写检查库

我正在寻找一个开源Java拼写检查库,它至少包含以下语言的字典:法语,德语,西班牙语和捷克语.有什么建议吗?

java nlp spell-checking languagetool

53
推荐指数
2
解决办法
5万
查看次数

如何检查字符串是否随机化,或人类生成和发音?

用于识别[可能] bot生成的用户名.

假设您有一个像"bilbomoothof"这样的用户名..它可能是无稽之谈,但它仍然包含可发音的声音,所以看起来像人类生成的.

我接受它可能是从一个音节字典或单词部分中随机生成的,但让我们假设有问题的机器人有点垃圾.

  1. 假设您有一个像"sdfgbhm342r3f"这样的用户名,对于人来说,这显然是一个随机字符串.但这可以通过编程方式识别吗?
  2. 有没有可用的算法(类似于Soundex等),可以识别字符串中的可发音如此?

适用于PHP/MySQL的解决方案最受欢迎.

mysql algorithm nlp spam phonetics

53
推荐指数
4
解决办法
2994
查看次数

有可读的编程语言吗?

我的意思是,是否有编码语言与人类风格编码?例如:

Create an object called MyVar and initialize it to 10;
Take MyVar and call MyMethod() with parameters. . .
Run Code Online (Sandbox Code Playgroud)

我知道它不是那么有用,但创建这样的语法会很有趣.

grammar nlp

52
推荐指数
21
解决办法
1万
查看次数

如何从写成单词的数字中读取值?

众所周知,数字可以用数字写成,也可以用它们的名字来表示.虽然有很多例子可以将123转换成123,但我找不到如何以相反的方式转换它的好例子.

一些警告:

  1. 基数/名义或序数:"一"和"第一"
  2. 常见的拼写错误:"四十"/"十四"
  3. 数百/数千:2100 - >"二十一",还有"二千一百"
  4. 分隔符:"十一二五二",还有"十一五十二"或"十一二十二"等等
  5. 口语:"三十多岁"
  6. 分数:'三分之一','五分之二'
  7. 俗名:'一打','一半'

可能还有更多可能尚未列出的警告.假设算法需要非常健壮,甚至可以理解拼写错误.

我应该阅读哪些领域/论文/研究/算法来学习如何写这些?信息在哪里?

PS:我的最终解析器应该真正理解3种不同的语言,英语,俄语和希伯来语.也许在稍后阶段会添加更多语言.希伯来语也有男/女数字,如"一个男人"和"一个女人"有不同的"一个" - "ehad"和"ahat".俄罗斯也有一些自己的复杂性.

谷歌在这方面做得很好.例如:

http://www.google.com/search?q=two+thousand+and+one+hundred+plus+five+dozen+and+four+fifths+in+decimal

(反过来也可以http://www.google.com/search?q=999999999999+in+english)

language-agnostic algorithm parsing nlp numbers

50
推荐指数
5
解决办法
1万
查看次数

什么是CoNLL数据格式?

我是文本挖掘的新手.我正在使用一个开源jar(Mate Parser),它在依赖解析后以CoNLL 2009格式给出输出.我想使用依赖解析结果进行信息提取.但我能够理解一些输出但不能理解CoNLL数据格式.任何人都可以帮助我理解CoNLL数据格式吗?任何类型的指针将不胜感激.

nlp text-parsing text-mining information-extraction

50
推荐指数
2
解决办法
3万
查看次数

文本分类的特征选择与缩减

我目前正在开发一个项目,一个简单的情绪分析器,这样在不同的情况下会有2个和3个类.我正在使用一个非常丰富独特单词(大约200.000)的语料库.我用袋的词方法用于特征选择和以减少的数量独特特征,进行消除由于一个进行阈值出现频率.在最后一组的功能包括围绕20.000的功能,这实际上是一个90%的下降,但还不够用于测试预测的预期准确性.我正在使用LibSVMSVM-light进行训练和预测(线性RBF内核)以及PythonBash.

到目前为止观察到的最高精度约为75%,我至少需要90%.这是二进制分类的情况.对于多级培训,准确率降至约60%.在这两种情况下我都需要至少90%,并且无法计算如何增加它:通过优化训练参数通过优化特征选择

我读过有关文本分类中特征选择的文章,我发现使用了三种不同的方法,它们之间实际上有明显的相关性.这些方法如下:

  • 词袋的频率逼近(BOW)
  • 信息增益(IG)
  • X ^ 2统计(CHI)

第一种方法已经是我使用的方法,但我非常简单地使用它,需要指导以更好地使用它以获得足够高的准确度.我也缺乏IGCHI实际实施的知识,并寻求任何帮助以这种方式指导我.

非常感谢,如果您需要任何其他信息以获得帮助,请告诉我们.


  • @larsmans:频率阈值 …

nlp svm feature-extraction sentiment-analysis

49
推荐指数
2
解决办法
2万
查看次数

如何将句子或文档转换为向量?

我们有用于将单词转换为向量的模型(例如word2vec模型).是否存在将句子/文档转换为向量的类似模型,可能使用为单个单词学习的向量?

nlp vector word2vec

49
推荐指数
4
解决办法
3万
查看次数

如何删除错误“SystemError:_internal 初始化失败且未引发异常”

我正在尝试导入 Top2Vec 包进行 nlp 主题建模。但即使升级了pip、numpy这个错误还是来了。

我试过

pip install --upgrade pip
Run Code Online (Sandbox Code Playgroud)
pip install --upgrade numpy
Run Code Online (Sandbox Code Playgroud)

我本来期待着跑步

from top2vec import Top2Vec

model = Top2Vec(FAQs, speed='learn', workers=8)
Run Code Online (Sandbox Code Playgroud)

但它给出了提到的错误

python import nlp google-colaboratory

49
推荐指数
3
解决办法
7万
查看次数

如何在NLTK中对字符串句子进行标记?

我正在使用nltk,所以我想创建自己的自定义文本,就像nltk.books上的默认文本一样.但是,我刚刚接受了这样的方法

my_text = ['This', 'is', 'my', 'text']
Run Code Online (Sandbox Code Playgroud)

我想发现任何方式输入我的"文本":

my_text = "This is my text, this is a nice way to input text."
Run Code Online (Sandbox Code Playgroud)

哪种方法,python或者nltk允许我这样做.更重要的是,我怎么能低估标点符号呢?

python nlp tokenize nltk

48
推荐指数
1
解决办法
12万
查看次数

NLTK使用自定义数据命名实体识别

我正在尝试使用NLTK从我的文本中提取命名实体.我发现NLTK NER对我的目的不是很准确,我想添加一些我自己的标签.我一直在努力寻找培养自己的NER的方法,但我似乎无法找到合适的资源.我有几个关于NLTK的问题 -

  1. 我可以使用自己的数据来训练NLTK中的命名实体识别器吗?
  2. 如果我可以使用自己的数据进行训练,那么named_entity.py文件是否需要修改?
  3. 输入文件格式是否必须在IOB中.Eric NNP B-PERSON?
  4. 有没有任何资源 - 除了nltk cookbook和我可以使用的python nlp?

我真的很感谢这方面的帮助

python nlp named-entity-recognition nltk

47
推荐指数
2
解决办法
2万
查看次数