标签: nlp

寻找Java拼写检查库

我正在寻找一个开源Java拼写检查库,它至少包含以下语言的字典:法语,德语,西班牙语和捷克语.有什么建议吗？

java nlp spell-checking languagetool

ave*_*net

2014 09-21

53
推荐指数

2
解决办法

5万
查看次数

如何检查字符串是否随机化,或人类生成和发音？

用于识别[可能] bot生成的用户名.

假设您有一个像"bilbomoothof"这样的用户名..它可能是无稽之谈,但它仍然包含可发音的声音,所以看起来像人类生成的.

我接受它可能是从一个音节字典或单词部分中随机生成的,但让我们假设有问题的机器人有点垃圾.

假设您有一个像"sdfgbhm342r3f"这样的用户名,对于人来说,这显然是一个随机字符串.但这可以通过编程方式识别吗？
有没有可用的算法(类似于Soundex等),可以识别字符串中的可发音如此？

适用于PHP/MySQL的解决方案最受欢迎.

mysql algorithm nlp spam phonetics

Tim*_*ock

2009 07-24

53
推荐指数

4
解决办法

2994
查看次数

有可读的编程语言吗？

我的意思是,是否有编码语言与人类风格编码？例如:

Create an object called MyVar and initialize it to 10;
Take MyVar and call MyMethod() with parameters. . .

Run Code Online (Sandbox Code Playgroud)

我知道它不是那么有用,但创建这样的语法会很有趣.

grammar nlp

Enr*_*rru

2012 05-02

52
推荐指数

21
解决办法

1万
查看次数

如何从写成单词的数字中读取值？

众所周知,数字可以用数字写成,也可以用它们的名字来表示.虽然有很多例子可以将123转换成123,但我找不到如何以相反的方式转换它的好例子.

一些警告:

基数/名义或序数:"一"和"第一"
常见的拼写错误:"四十"/"十四"
数百/数千:2100 - >"二十一",还有"二千一百"
分隔符:"十一二五二",还有"十一五十二"或"十一二十二"等等
口语:"三十多岁"
分数:'三分之一','五分之二'
俗名:'一打','一半'

可能还有更多可能尚未列出的警告.假设算法需要非常健壮,甚至可以理解拼写错误.

我应该阅读哪些领域/论文/研究/算法来学习如何写这些？信息在哪里？

PS:我的最终解析器应该真正理解3种不同的语言,英语,俄语和希伯来语.也许在稍后阶段会添加更多语言.希伯来语也有男/女数字,如"一个男人"和"一个女人"有不同的"一个" - "ehad"和"ahat".俄罗斯也有一些自己的复杂性.

谷歌在这方面做得很好.例如:

http://www.google.com/search?q=two+thousand+and+one+hundred+plus+five+dozen+and+four+fifths+in+decimal

(反过来也可以http://www.google.com/search?q=999999999999+in+english)

language-agnostic algorithm parsing nlp numbers

Evg*_*eny

2018 05-21

50
推荐指数

5
解决办法

1万
查看次数

什么是CoNLL数据格式？

我是文本挖掘的新手.我正在使用一个开源jar(Mate Parser),它在依赖解析后以CoNLL 2009格式给出输出.我想使用依赖解析结果进行信息提取.但我能够理解一些输出但不能理解CoNLL数据格式.任何人都可以帮助我理解CoNLL数据格式吗？任何类型的指针将不胜感激.

nlp text-parsing text-mining information-extraction

swa*_*out

lucky-day

50
推荐指数

2
解决办法

3万
查看次数

我目前正在开发一个项目,一个简单的情绪分析器,这样在不同的情况下会有2个和3个类.我正在使用一个非常丰富的独特单词(大约200.000)的语料库.我用袋的词方法用于特征选择和以减少的数量独特特征,进行消除由于一个进行阈值的出现频率.在最后一组的功能包括围绕20.000的功能,这实际上是一个90%的下降,但还不够用于测试预测的预期准确性.我正在使用LibSVM和SVM-light进行训练和预测(线性和RBF内核)以及Python和Bash.

到目前为止观察到的最高精度约为75%,我至少需要90%.这是二进制分类的情况.对于多级培训,准确率降至约60%.在这两种情况下我都需要至少90%,并且无法计算如何增加它:通过优化训练参数或通过优化特征选择？

我读过有关文本分类中特征选择的文章,我发现使用了三种不同的方法,它们之间实际上有明显的相关性.这些方法如下:

词袋的频率逼近(BOW)
信息增益(IG)
X ^ 2统计(CHI)

第一种方法已经是我使用的方法,但我非常简单地使用它,需要指导以更好地使用它以获得足够高的准确度.我也缺乏IG和CHI实际实施的知识,并寻求任何帮助以这种方式指导我.

非常感谢,如果您需要任何其他信息以获得帮助,请告诉我们.

@larsmans:频率阈值 …

nlp svm feature-extraction sentiment-analysis

cla*_*ius

2014 03-09

49
推荐指数

2
解决办法

2万
查看次数

如何将句子或文档转换为向量？

我们有用于将单词转换为向量的模型(例如word2vec模型).是否存在将句子/文档转换为向量的类似模型,可能使用为单个单词学习的向量？

nlp vector word2vec

Sah*_*hil

lucky-day

49
推荐指数

4
解决办法

3万
查看次数

如何删除错误“SystemError：_internal 初始化失败且未引发异常”

我正在尝试导入 Top2Vec 包进行 nlp 主题建模。但即使升级了pip、numpy这个错误还是来了。

我试过

pip install --upgrade pip

Run Code Online (Sandbox Code Playgroud)

pip install --upgrade numpy

Run Code Online (Sandbox Code Playgroud)

我本来期待着跑步

from top2vec import Top2Vec

model = Top2Vec(FAQs, speed='learn', workers=8)

Run Code Online (Sandbox Code Playgroud)

但它给出了提到的错误

python import nlp google-colaboratory

Say*_*Roy

lucky-day

49
推荐指数

3
解决办法

7万
查看次数

如何在NLTK中对字符串句子进行标记？

我正在使用nltk,所以我想创建自己的自定义文本,就像nltk.books上的默认文本一样.但是,我刚刚接受了这样的方法

my_text = ['This', 'is', 'my', 'text']

Run Code Online (Sandbox Code Playgroud)

我想发现任何方式输入我的"文本":

my_text = "This is my text, this is a nice way to input text."

Run Code Online (Sandbox Code Playgroud)

哪种方法,python或者nltk允许我这样做.更重要的是,我怎么能低估标点符号呢？

python nlp tokenize nltk

die*_*lar

2019 05-04

48
推荐指数

1
解决办法

12万
查看次数

NLTK使用自定义数据命名实体识别

我正在尝试使用NLTK从我的文本中提取命名实体.我发现NLTK NER对我的目的不是很准确,我想添加一些我自己的标签.我一直在努力寻找培养自己的NER的方法,但我似乎无法找到合适的资源.我有几个关于NLTK的问题 -

我可以使用自己的数据来训练NLTK中的命名实体识别器吗？
如果我可以使用自己的数据进行训练,那么named_entity.py文件是否需要修改？
输入文件格式是否必须在IOB中.Eric NNP B-PERSON？
有没有任何资源 - 除了nltk cookbook和我可以使用的python nlp？

我真的很感谢这方面的帮助

python nlp named-entity-recognition nltk

use*_*248

lucky-day

47
推荐指数

2
解决办法

2万
查看次数

标签统计

nlp ×10

python ×3

algorithm ×2

nltk ×2

feature-extraction ×1

google-colaboratory ×1

grammar ×1

import ×1

information-extraction ×1

java ×1

language-agnostic ×1

languagetool ×1

mysql ×1

named-entity-recognition ×1

numbers ×1

parsing ×1

phonetics ×1

sentiment-analysis ×1

spam ×1

spell-checking ×1

svm ×1

text-mining ×1

text-parsing ×1

tokenize ×1

vector ×1

word2vec ×1

标签 统计

标签统计