但如果我想用意大利语检索信息?
它有另一种服务(类似这个)可以吗?
我如何在PHP中使用字符串(也是俄语)匹配俄语单词?
例如,像这样的事情:
$pattern = '/?????/';
preg_replace($pattern, $replacement, $string_in_russian)
Run Code Online (Sandbox Code Playgroud)
我试着utf8_encode和htmlentities使用UTF-8标志$模式,但没有奏效.我还应该编码$ string_in_russian吗?
更新:/u标志的建议不起作用,所以我把我需要的实际代码用于.它来自Wordpress的词汇表插件(我的网站正确设置为使用俄语,它确实有效,但不是在这个例子中).所以这是代码
$glossary_title = $glossary_item->post_title;
$glossary_search = '/\b'.$glossary_title.'s*?\b(?=([^"]\*"[^"]\*")\*[^"]*$)/iu';
$glossary_replace = '<a'.$timestamp.'>$0</a'.$timestamp.'>';
$content_temp = preg_replace($glossary_search, $glossary_replace, $content, 1);
Run Code Online (Sandbox Code Playgroud)
当我快速回复HTML注释时,这是我为模式获得的字符串
/\b?????s*?\b(?=([^"]*"[^"]")[^"]*$)/iu
好吧,这似乎仍然不起作用.我想也许正是这个"s"让我搞砸了(这个级别的正则表达式有点超出我但我认为它可能是复数形式),但删除它并没有帮助.
更新#2:好的,所以我决定做一个完整的"空白平板"测试 - 普通的PHP文件,包含一些英文和俄文的$ content字符串以及要替换的目标字.这是代码
$content_en = 'Nulla volutpat pretium nunc, ac feugiat neque lobortis vitae. In eu sapien sit amet eros tincidunt viverra. <b style="color:purple">Proin</b> congue hendrerit felis, et consequat neque ultrices lobortis. <b style="color:purple">Proin</b> luctus bibendum libero et molestie. Sed tristique lacus …Run Code Online (Sandbox Code Playgroud) 我有一个用perl编写的英语论坛网站,该网站不断受到俄语垃圾邮件的轰炸.有没有办法使用Perl和正则表达式来检测俄语文本,以便我可以阻止它?
有些语言,特别是斯拉夫语言,根据语法背景改变了人们名字的结尾.(对于那些懂语法或学过语言的人,如德语或俄语,以及帮助搜索关键词,我说的是名词变形.)
这可能是最简单的一组示例(波兰语,以保存整个不同的字母表问题):
现在,如果在这些例子中,这里的名字是用户输入的,那就引入了一个语法噩梦的世界.重要的是,如果我选择Katie(Kasia),这些例子不能直接比较 - 3和4都是Kasi,而不是*Kasy和*Kasie - 男性名字将再次完全不同.
我猜之前有人已经处理过这种情况,但今天我的Google-fu似乎很弱.我可以找到很多关于自然语言处理的链接,但我不认为这是我想要的.需要明确的是:我只是从来没有准备有每个用户一个用户输入的名字和我会需要它们下降到已知的配置-我会,将有占位符像一个本地化的文本{name nominative}和{name dative},为求论点.我真的不想对文本进行词法分析来解决问题,我只需要拒绝那个用户输入的名字.
任何人都有关于如何做到这一点的任何建议,或者我是否需要开始致电本地化机构; o)
进一步阅读(所有在维基百科上)感兴趣的:
免责声明:我知道这种情况会发生在许多其他语言中; 突出斯拉夫语言仅仅是因为我有一个项目将被本地化为一些斯拉夫语言.
我在尝试从.txt文件中读取俄语字符时遇到问题.当我阅读它时,文本总是变得腐败.文件编码是UTF8.
这是代码:
TextReader reader = new StreamReader(deliveryLocation, Encoding.UTF8);
translatedContent = reader.ReadToEnd();
reader.Close();
Run Code Online (Sandbox Code Playgroud)
谁能告诉我我做错了什么?我尝试使用所有支持的编码,但文本总是被破坏?
编辑:这是我需要从文件中读取的文本示例:
Оттаблицвышемысм.чонсервнойбанкытеньиWinRunnerбрать3pприблизительнотакоежевремянастраиватьизапускатьциклиспытаниявбудутнемногоNEOBXODIMOснимковэкрана.ГдеболеебольшойколичествоснимковэкранаNEOBXODIMO,времябранноедлятогочтобызапускатьтеньчемвремябранноедляписанияКодегоидлятогочтобывыполнятьоновWinRunner的.ПримечанияинженеравегоотчетечтоWinRunner的требовать3sсборкасредствапрограммированияподиспытаниемспециально,которнужноподготовитьработатьсим,тогдакактеньнеделает.КаждыйресурсвключеностраницадолжениметьимяШИЛА(ШИЛОбудетязыкомстержняклиентасобственническим).
谢谢
encoding utf-8 internationalization character-encoding c#-4.0
我试图将俄语字符的大小写从上到下改变.
function toLower($string) {
echo strtr($string,'?????????????????????????????????','?????????????????????????????????');
};
Run Code Online (Sandbox Code Playgroud)
这是我使用的功能,输出看起来像这样
ЁЙ##ёѹ##`
任何人都可以帮我吗?提前致谢
当通过PHP请求发送邮件时,俄语字母发生了什么?"硬编码"俄罗斯字母正确显示,但从表格的文本框中带有象形文字:
HTML页面:
<tr>
<td style="width: 280px">?????????? ?????</td>
<td><input type="text" id="workContent"/></td>
</tr>
Run Code Online (Sandbox Code Playgroud)
PHP页面:
$WorkContent = $_REQUEST["workContent"]; //?????????? ?????
// ...
$WorkContentLabel = "?????????? ?????";
// ...
$message .= $WorkContentLabel . ":\t" . $WorkContent . "\n";
// ...
// email stuff (data below changed)
$to = "test@gmail.com";
$from = "me@domain.com";
$from_header = "From: Russian site command ";
$subject = "Message with russian letters";
$subject = '=?utf-8?B?'.$subject.'?=';
$message .= $subject;
// send message
mail($to, $subject, $message, $from_header);
Run Code Online (Sandbox Code Playgroud)
用户在文本框中输入一些内容: alt text http://lh3.ggpht.com/_1TPOP7DzY1E/S1y6Y0wb9tI/AAAAAAAAC88/OkdMQkO47HQ/s800/works.png
并提交表格.
我收到什么(在GMAIL中): …
我们的应用程序在非unicode版本中有一个错误; 如果我们将一些俄罗斯字符复制到剪贴板(使用SetClipboardData(CF_TEXT)),然后将它们粘贴到记事本中,它们不会被粘贴为俄语字符,而是作为代码页1252当量(例如Э变为Ý).
在尝试解决这个问题时,我为粘贴制作了一个小测试应用程序,如果我使用GetClipboardData(CF_TEXT),它的工作正常.但是,如果我使用GetClipboardData(CF_UNICODETEXT),它与记事本完全相同.
所以我假设记事本只是在粘贴上使用CF_UNICODETEXT.根据我读过的MS文档,剪贴板应该能够将CF_TEXT转换为CF_UNICODE文本.实际上在页面上:
http://msdn.microsoft.com/en-us/library/ms649013.aspx#_win32_Synthesized_Clipboard_Formats
它说"将转换格式放在剪贴板上没有任何好处."
如果这是真的那么我必须(我希望)犯一个容易纠正的简单错误.
任何人都可以帮我解决这个问题吗?谢谢
windows unicode clipboard internationalization character-encoding
最终,我正在创建一个三种语言的网站:英语,俄语和中文.我希望如果我在应用程序和数据库中使用UTF-8,输入输出就不会有任何问题(会吗?)
但最可怕的部分是搜索.它应该足够酷.它应该是全文,它应该索引等.我希望它能理解形态学,使用词干等.
首先,我看了Zend_Search_Lucene,但正如我在http://framework.zend.com/issues/browse/ZF/component/10021上意识到的那样,它有中文问题.:(
现在我在考虑狮身人面像.它支持英语和俄语词干.我不确定中文有多好,我不知道加上对它的支持有多难.http://www.sphinxsearch.com/forum/view.html?id=1554是一线希望,但由于没有经验丰富的Sphinx用户,我不认为我理解那里的内容.
所以,
有没有人有这种'语言无关'的搜索经验,可以和我分享吗?
你能给我一些测试搜索的东西吗?作为一名具有一定英语基础知识的俄语母语人士,我可以自己测试俄语和英语搜索,但我甚至不知道这些中文照片的哪些部分是单词.请给我一些中文字符串,将它们放入索引,并进行一些具有预期结果的查询!
我在替换字符串中的字符时遇到一个奇怪的问题......
我读了一个包含俄语文本的 .txt 文件,并从俄语到英语的字母列表(ru=en)开始,我循环该列表,我想用英语字符替换俄语字符。
问题是:我可以在调试中看到俄语的正确阅读和英语的正确阅读,但使用的myWord = myWord.Replace(ruChar, enChar) 字符串没有被替换。
我的txt文件是UTF-8编码的。
我有一个应用程序,需要支持英语,西班牙语和俄语.
为了检测这个,我使用这个方法:
UserLanguage = setLanguage(Locale.getDefault().getDisplayLanguage());
Run Code Online (Sandbox Code Playgroud)
UserLanguage是"en"如果英语,"es"是西班牙语,如果是俄语则需要"ru",否则它将是英语.但是,当我将手机上的区域设置设置为俄语时,则无法检测到.Android网站上的文档没有说明俄语.有帮助吗?
private String setLanguage(String locale){
//Toast.makeText(context, locale.toString(), Toast.LENGTH_SHORT).show();
if(locale.equals("English")){
UserLanguage="en";
}else{
if(locale.equals("español")){//espanol
UserLanguage="es";
}else{
if(locale.equals("ru")){//cant compile with true russian
UserLanguage="ru";
}else{
//I give up.... english??
UserLanguage="en";
}
}
}
return UserLanguage;
}
Run Code Online (Sandbox Code Playgroud) android localization internationalization language-detection
我正在尝试阅读我认为是俄语的文档,但我不确定我所看到的是否正确编码.文字看起来像这样:
Ãåíåðèðóåòìàòðèöóñëó÷àéíûõ÷èñåëâäèàïàçîíåîò-1äî1
(显示为几个特殊的A和o)
在Firefox中打开时.在其他程序中,它看起来像这样:
-1 1
(显示为几个问号)
有没有希望翻译这个?
utf-8 ×5
php ×4
regex ×2
unicode ×2
android ×1
ascii ×1
c# ×1
c#-4.0 ×1
clipboard ×1
dbpedia ×1
encoding ×1
grammar ×1
linguistics ×1
localization ×1
nlp ×1
ontology ×1
perl ×1
preg-replace ×1
replace ×1
semantics ×1
spam ×1
sparql ×1
sphinx ×1
string ×1
translation ×1
web-services ×1
windows ×1