相关疑难解决方法(0)

如何运行为特定字母或脚本中的字符测试文本的正则表达式？

我想在Perl中创建一个正则表达式,它将测试特定脚本中字符的字符串.这将是这样的:

$text =~ .*P{'Chinese'}.*

Run Code Online (Sandbox Code Playgroud)

有没有一种简单的方法可以做到这一点,对于英语而言,通过测试[a-zA-Z]非常简单,但是对于像中文这样的脚本或者日文脚本之一,我无法想办法没有明确地写出每个字符,这将导致一些非常丑陋的代码.想法？我不能成为第一个/唯一一个想要这样做的人.

regex perl

Eli*_*Eli

2011 12-01

7
推荐指数

1
解决办法

1718
查看次数

如何在文档中标记所有CJK文本？

我有一个文件,file1.txt包含英文,中文,日文和韩文文本.为了在ConTeXt中使用,我需要根据语言标记文件中的每个文本区域(英语除外),并输出一个新文件,例如,这里是一个示例行:

The ?? ate ?.

Run Code Online (Sandbox Code Playgroud)

因为它包含中文字符的文本,所以这将标记为:

The \language[cn]{??} ate \language[cn]{?}.

Run Code Online (Sandbox Code Playgroud)

该文档保存为UTF-8.
应标明中文文字\language[cn]{*}.
应标记日语文本\language[ja]{*}.
应标记韩文文本\language[ko]{*}.
内容永远不会从一行继续到下一行.
如果代码对某些东西是中文,日文还是韩文有疑问,最好是默认为中文.

如何根据语言标记文本？

unicode multilingual cjk character-properties

Vil*_*age

2012 05-20

5
推荐指数

2
解决办法

434
查看次数

如何使用perl的正则表达式匹配汉字

我需要在utf8编码的html中匹配一些中文字符,我写了一些测试代码如下:

#! /usr/bin/perl

use strict;
use LWP::UserAgent;
use Encode;

my $ua = new LWP::UserAgent;

my $request = HTTP::Request->new('GET');
my $url = 'http://www.boc.cn/sourcedb/whpj/';
$request->url($url);

my $res = $ua->request($request) ;

my $str_chinese =   encode("utf8" ,"??" ) ;  
# my $str_chinese = "??" ;


my $str_english = "English" ;
#my $html = decode("utf8" , $res->content) ;
my $html = $res->content ; 

if ( $html =~ /$str_chinese/ ) {
     print "chinese word matched" ;
}else {
     print "chinese word unmatched\n" ;
}

if ( …

Run Code Online (Sandbox Code Playgroud)

regex perl

Hai*_*ang

2009 12-23

2
推荐指数

1
解决办法

3930
查看次数