标签: language-detection

在字符串中测试日文/中文字符

我有一个程序可以读取一堆文本并对其进行分析.文本可能是任何语言,但我需要测试日语和中文,以不同的方式分析它们.

我已经读过,我可以测试它上面的每个字符的unicode数字,看看它是否在CJK字符范围内.这很有帮助,但是如果可能的话,我想将它们分开来处理针对不同字典的文本.有没有办法测试角色是日文还是中文?

string unicode language-detection

6
推荐指数
1
解决办法
4495
查看次数

如何使用Perl检测俄罗斯垃圾邮件?

我有一个用perl编写的英语论坛网站,该网站不断受到俄语垃圾邮件的轰炸.有没有办法使用Perl和正则表达式来检测俄语文本,以便我可以阻止它?

regex perl spam language-detection

6
推荐指数
1
解决办法
1087
查看次数

将文本识别为简体与繁体中文

给定一个已知为中文并以UTF-8编码的文本块,有没有办法确定它是简化还是传统?

php unicode cjk language-detection

6
推荐指数
1
解决办法
4433
查看次数

什么是最好的语言检测库或web api?[甚至支付]

首先,我有很多文字可供使用.比方说,我每次尝试都有10000个字符.该脚本是基于PHP的,但我可以使用我想要的任何东西.C++,java,没问题.

不能使用谷歌语言API:他们的使用限制很低.

6个小时,我试着想出任何好的东西,但现在没有.有人能指出我最好的机会吗?

language-detection

6
推荐指数
2
解决办法
2万
查看次数

检测 PHP 中的 CJK 字符

我有一个允许输入 UTF8 字符的输入框——我能否以编程方式检测这些字符是中文、日文还是韩文(也许是某些 Unicode 范围的一部分)?我会根据 MySQL 的全文搜索是否有效来更改搜索方法(它不适用于 CJK 字符)。

谢谢!

utf-8 cjk language-detection

5
推荐指数
2
解决办法
2272
查看次数

语言检测

我正在使用tesseract进行OCR,主要是发票.但是,tesseract需要在开始处理文件之前指定语言.

我以为我要根据预定义的默认语言执行ocr.然后,我想使用生成的文本来检查使用的语言.如果它不是默认语言,我会再次处理它,以便从tesseract获得更好的结果.

但是如何实现语言检测算法呢?我可以使用C++库吗?

c++ ocr nlp language-detection

5
推荐指数
1
解决办法
1842
查看次数

如何通过tika检测波斯语网页?

我需要一个示例代码来帮助我通过apache tika工具包检测波斯语语言网页.

 LanguageIdentifier identifier = new LanguageIdentifier("?????");
        String language = identifier.getLanguage();
Run Code Online (Sandbox Code Playgroud)

我下载了apache.tika jar文件并将它们添加到类路径中.但是这段代码给出了波斯语的错误,但它适用于英语.如何将Tarsi添加到tika的languageIdentifier包中?

java apache language-detection apache-tika farsi

5
推荐指数
1
解决办法
2722
查看次数

python网站语言检测

我正在写一个Bot,可以检查成千上万的网站,不管是英文与否.

我正在使用Scrapy(python 2.7框架)来抓取每个网站的第一页,

可以有人建议我检查网站语言的最佳方式,

任何帮助,将不胜感激.

python web-crawler language-detection scrapy

5
推荐指数
1
解决办法
3003
查看次数

(人类)文件的语言

有没有办法(程序,库)大致知道文档写入哪种语言?

我有一堆混合语言的文本文件(~500K)可以在支持i18n的CMS(Drupal)中导入.

我不需要完美的比赛,只有一些猜测.

nlp classification language-detection

4
推荐指数
1
解决办法
874
查看次数

语言检测非常短的文本

我正在创建一个用于检测短文本语言的应用程序,平均值<100个字符并包含俚语(例如推文,用户查询,短信).

我测试的所有库都适用于普通网页,但不适用于非常短的文本.到目前为止,提供最佳结果的库是Chrome的语言检测(CLD)库,我必须将其构建为共享库.

当文本由非常短的单词组成时,CLD失败.在查看了CLD的源​​代码后,我发现它使用了4克,这可能就是原因.

我现在想的提高准确性的方法是:

  • 删除品牌名称,数字,网址和"软件","下载","互联网"等字词
  • 使用字典当文本在threashold上方包含许多短字或包含太少字时.
  • 该词典是从维基百科新闻文章+ hunspell词典创建的.

什么数据集最适合此任务?我该如何改进这种方法?

到目前为止,我正在使用EUROPARL和维基百科的文章.我正在使用NLTK完成大部分工作.

nlp nltk language-detection

4
推荐指数
2
解决办法
3452
查看次数