标签: language-detection

在字符串中测试日文/中文字符

我有一个程序可以读取一堆文本并对其进行分析.文本可能是任何语言,但我需要测试日语和中文,以不同的方式分析它们.

我已经读过,我可以测试它上面的每个字符的unicode数字,看看它是否在CJK字符范围内.这很有帮助,但是如果可能的话,我想将它们分开来处理针对不同字典的文本.有没有办法测试角色是日文还是中文？

string unicode language-detection

lan*_*man

2017 02-01

6
推荐指数

1
解决办法

4495
查看次数

如何使用Perl检测俄罗斯垃圾邮件？

我有一个用perl编写的英语论坛网站,该网站不断受到俄语垃圾邮件的轰炸.有没有办法使用Perl和正则表达式来检测俄语文本,以便我可以阻止它？

regex perl spam language-detection

Mat*_*ock

2012 04-29

6
推荐指数

1
解决办法

1087
查看次数

将文本识别为简体与繁体中文

给定一个已知为中文并以UTF-8编码的文本块,有没有办法确定它是简化还是传统？

php unicode cjk language-detection

phi*_*reo

2012 05-06

6
推荐指数

1
解决办法

4433
查看次数

什么是最好的语言检测库或web api？[甚至支付]

首先,我有很多文字可供使用.比方说,我每次尝试都有10000个字符.该脚本是基于PHP的,但我可以使用我想要的任何东西.C++,java,没问题.

不能使用谷歌语言API:他们的使用限制很低.

6个小时,我试着想出任何好的东西,但现在没有.有人能指出我最好的机会吗？

language-detection

ced*_*vad

2011 08-11

6
推荐指数

2
解决办法

2万
查看次数

检测 PHP 中的 CJK 字符

我有一个允许输入 UTF8 字符的输入框——我能否以编程方式检测这些字符是中文、日文还是韩文（也许是某些 Unicode 范围的一部分）？我会根据 MySQL 的全文搜索是否有效来更改搜索方法（它不适用于 CJK 字符）。

谢谢！

utf-8 cjk language-detection

atp*_*atp

2010 11-03

5
推荐指数

2
解决办法

2272
查看次数

语言检测

我正在使用tesseract进行OCR,主要是发票.但是,tesseract需要在开始处理文件之前指定语言.

我以为我要根据预定义的默认语言执行ocr.然后,我想使用生成的文本来检查使用的语言.如果它不是默认语言,我会再次处理它,以便从tesseract获得更好的结果.

但是如何实现语言检测算法呢？我可以使用C++库吗？

c++ ocr nlp language-detection

Ped*_*dro

2018 01-26

5
推荐指数

1
解决办法

1842
查看次数

如何通过tika检测波斯语网页？

我需要一个示例代码来帮助我通过apache tika工具包检测波斯语语言网页.

 LanguageIdentifier identifier = new LanguageIdentifier("?????");
        String language = identifier.getLanguage();

Run Code Online (Sandbox Code Playgroud)

我下载了apache.tika jar文件并将它们添加到类路径中.但是这段代码给出了波斯语的错误,但它适用于英语.如何将Tarsi添加到tika的languageIdentifier包中？

java apache language-detection apache-tika farsi

ali*_*ian

2012 06-09

5
推荐指数

1
解决办法

2722
查看次数

python网站语言检测

我正在写一个Bot,可以检查成千上万的网站,不管是英文与否.

我正在使用Scrapy(python 2.7框架)来抓取每个网站的第一页,

可以有人建议我检查网站语言的最佳方式,

任何帮助,将不胜感激.

python web-crawler language-detection scrapy

akh*_*hab

2012 07-16

5
推荐指数

1
解决办法

3003
查看次数

(人类)文件的语言

有没有办法(程序,库)大致知道文档写入哪种语言？

我有一堆混合语言的文本文件(~500K)可以在支持i18n的CMS(Drupal)中导入.

我不需要完美的比赛,只有一些猜测.

nlp classification language-detection

Cla*_*dio

2010 11-03

4
推荐指数

1
解决办法

874
查看次数

语言检测非常短的文本

我正在创建一个用于检测短文本语言的应用程序,平均值<100个字符并包含俚语(例如推文,用户查询,短信).

我测试的所有库都适用于普通网页,但不适用于非常短的文本.到目前为止,提供最佳结果的库是Chrome的语言检测(CLD)库,我必须将其构建为共享库.

当文本由非常短的单词组成时,CLD失败.在查看了CLD的源代码后,我发现它使用了4克,这可能就是原因.

我现在想的提高准确性的方法是:

删除品牌名称,数字,网址和"软件","下载","互联网"等字词
使用字典当文本在threashold上方包含许多短字或包含太少字时.
该词典是从维基百科新闻文章+ hunspell词典创建的.

什么数据集最适合此任务？我该如何改进这种方法？

到目前为止,我正在使用EUROPARL和维基百科的文章.我正在使用NLTK完成大部分工作.

nlp nltk language-detection

MrD*_*MrD

lucky-day

4
推荐指数

2
解决办法

3452
查看次数

标签统计

language-detection ×10

nlp ×3

cjk ×2

unicode ×2

apache ×1

apache-tika ×1

c++ ×1

classification ×1

farsi ×1

java ×1

nltk ×1

ocr ×1

perl ×1

php ×1

python ×1

regex ×1

scrapy ×1

spam ×1

string ×1

utf-8 ×1

web-crawler ×1

标签 统计

标签统计