我正在寻找一个开源Java拼写检查库,它至少包含以下语言的字典:法语,德语,西班牙语和捷克语.有什么建议吗?
用于识别[可能] bot生成的用户名.
假设您有一个像"bilbomoothof"这样的用户名..它可能是无稽之谈,但它仍然包含可发音的声音,所以看起来像人类生成的.
我接受它可能是从一个音节字典或单词部分中随机生成的,但让我们假设有问题的机器人有点垃圾.
适用于PHP/MySQL的解决方案最受欢迎.
我的意思是,是否有编码语言与人类风格编码?例如:
Create an object called MyVar and initialize it to 10;
Take MyVar and call MyMethod() with parameters. . .
Run Code Online (Sandbox Code Playgroud)
我知道它不是那么有用,但创建这样的语法会很有趣.
众所周知,数字可以用数字写成,也可以用它们的名字来表示.虽然有很多例子可以将123转换成123,但我找不到如何以相反的方式转换它的好例子.
一些警告:
可能还有更多可能尚未列出的警告.假设算法需要非常健壮,甚至可以理解拼写错误.
我应该阅读哪些领域/论文/研究/算法来学习如何写这些?信息在哪里?
PS:我的最终解析器应该真正理解3种不同的语言,英语,俄语和希伯来语.也许在稍后阶段会添加更多语言.希伯来语也有男/女数字,如"一个男人"和"一个女人"有不同的"一个" - "ehad"和"ahat".俄罗斯也有一些自己的复杂性.
谷歌在这方面做得很好.例如:
(反过来也可以http://www.google.com/search?q=999999999999+in+english)
我是文本挖掘的新手.我正在使用一个开源jar(Mate Parser),它在依赖解析后以CoNLL 2009格式给出输出.我想使用依赖解析结果进行信息提取.但我能够理解一些输出但不能理解CoNLL数据格式.任何人都可以帮助我理解CoNLL数据格式吗?任何类型的指针将不胜感激.
我目前正在开发一个项目,一个简单的情绪分析器,这样在不同的情况下会有2个和3个类.我正在使用一个非常丰富的独特单词(大约200.000)的语料库.我用袋的词方法用于特征选择和以减少的数量独特特征,进行消除由于一个进行阈值的出现频率.在最后一组的功能包括围绕20.000的功能,这实际上是一个90%的下降,但还不够用于测试预测的预期准确性.我正在使用LibSVM和SVM-light进行训练和预测(线性和RBF内核)以及Python和Bash.
到目前为止观察到的最高精度约为75%,我至少需要90%.这是二进制分类的情况.对于多级培训,准确率降至约60%.在这两种情况下我都需要至少90%,并且无法计算如何增加它:通过优化训练参数或通过优化特征选择?
我读过有关文本分类中特征选择的文章,我发现使用了三种不同的方法,它们之间实际上有明显的相关性.这些方法如下:
第一种方法已经是我使用的方法,但我非常简单地使用它,需要指导以更好地使用它以获得足够高的准确度.我也缺乏IG和CHI实际实施的知识,并寻求任何帮助以这种方式指导我.
非常感谢,如果您需要任何其他信息以获得帮助,请告诉我们.
@larsmans:频率阈值 …
我们有用于将单词转换为向量的模型(例如word2vec模型).是否存在将句子/文档转换为向量的类似模型,可能使用为单个单词学习的向量?
我正在尝试导入 Top2Vec 包进行 nlp 主题建模。但即使升级了pip、numpy这个错误还是来了。
我试过
pip install --upgrade pip
Run Code Online (Sandbox Code Playgroud)
pip install --upgrade numpy
Run Code Online (Sandbox Code Playgroud)
我本来期待着跑步
from top2vec import Top2Vec
model = Top2Vec(FAQs, speed='learn', workers=8)
Run Code Online (Sandbox Code Playgroud)
但它给出了提到的错误
我正在使用nltk,所以我想创建自己的自定义文本,就像nltk.books上的默认文本一样.但是,我刚刚接受了这样的方法
my_text = ['This', 'is', 'my', 'text']
Run Code Online (Sandbox Code Playgroud)
我想发现任何方式输入我的"文本":
my_text = "This is my text, this is a nice way to input text."
Run Code Online (Sandbox Code Playgroud)
哪种方法,python或者nltk允许我这样做.更重要的是,我怎么能低估标点符号呢?
我正在尝试使用NLTK从我的文本中提取命名实体.我发现NLTK NER对我的目的不是很准确,我想添加一些我自己的标签.我一直在努力寻找培养自己的NER的方法,但我似乎无法找到合适的资源.我有几个关于NLTK的问题 -
我真的很感谢这方面的帮助