我有一个程序可以读取一堆文本并对其进行分析.文本可能是任何语言,但我需要测试日语和中文,以不同的方式分析它们.
我已经读过,我可以测试它上面的每个字符的unicode数字,看看它是否在CJK字符范围内.这很有帮助,但是如果可能的话,我想将它们分开来处理针对不同字典的文本.有没有办法测试角色是日文还是中文?
我有一个用perl编写的英语论坛网站,该网站不断受到俄语垃圾邮件的轰炸.有没有办法使用Perl和正则表达式来检测俄语文本,以便我可以阻止它?
给定一个已知为中文并以UTF-8编码的文本块,有没有办法确定它是简化还是传统?
首先,我有很多文字可供使用.比方说,我每次尝试都有10000个字符.该脚本是基于PHP的,但我可以使用我想要的任何东西.C++,java,没问题.
不能使用谷歌语言API:他们的使用限制很低.
6个小时,我试着想出任何好的东西,但现在没有.有人能指出我最好的机会吗?
我有一个允许输入 UTF8 字符的输入框——我能否以编程方式检测这些字符是中文、日文还是韩文(也许是某些 Unicode 范围的一部分)?我会根据 MySQL 的全文搜索是否有效来更改搜索方法(它不适用于 CJK 字符)。
谢谢!
我正在使用tesseract进行OCR,主要是发票.但是,tesseract需要在开始处理文件之前指定语言.
我以为我要根据预定义的默认语言执行ocr.然后,我想使用生成的文本来检查使用的语言.如果它不是默认语言,我会再次处理它,以便从tesseract获得更好的结果.
但是如何实现语言检测算法呢?我可以使用C++库吗?
我需要一个示例代码来帮助我通过apache tika工具包检测波斯语语言网页.
LanguageIdentifier identifier = new LanguageIdentifier("?????");
String language = identifier.getLanguage();
Run Code Online (Sandbox Code Playgroud)
我下载了apache.tika jar文件并将它们添加到类路径中.但是这段代码给出了波斯语的错误,但它适用于英语.如何将Tarsi添加到tika的languageIdentifier包中?
我正在写一个Bot,可以检查成千上万的网站,不管是英文与否.
我正在使用Scrapy(python 2.7框架)来抓取每个网站的第一页,
可以有人建议我检查网站语言的最佳方式,
任何帮助,将不胜感激.
有没有办法(程序,库)大致知道文档写入哪种语言?
我有一堆混合语言的文本文件(~500K)可以在支持i18n的CMS(Drupal)中导入.
我不需要完美的比赛,只有一些猜测.
我正在创建一个用于检测短文本语言的应用程序,平均值<100个字符并包含俚语(例如推文,用户查询,短信).
我测试的所有库都适用于普通网页,但不适用于非常短的文本.到目前为止,提供最佳结果的库是Chrome的语言检测(CLD)库,我必须将其构建为共享库.
当文本由非常短的单词组成时,CLD失败.在查看了CLD的源代码后,我发现它使用了4克,这可能就是原因.
我现在想的提高准确性的方法是:
什么数据集最适合此任务?我该如何改进这种方法?
到目前为止,我正在使用EUROPARL和维基百科的文章.我正在使用NLTK完成大部分工作.