kor*_*mak 6 perl encoding utf-8 iso-8859-1
我有一个字符串$ data,用utf-8编码.我假设我不知道这个字符串是utf-8还是iso-8859-1.我想使用Perl Encode :: Guess模块来查看它是否是其中之一.我无法弄清楚这个模块是如何工作的.
我尝试了以下四种方法(来自http://perldoc.perl.org/Encode/Guess.html):
use Encode::Guess qw/utf8 latin1/;
my $decoder = guess_encoding($data);
print "$decoder\n";
Run Code Online (Sandbox Code Playgroud)
结果: iso-8859-1或utf8
use Encode::Guess qw/utf8 latin1/;
my $enc = guess_encoding($data, qw/utf8 latin1/);
ref($enc) or die "Can't guess: $enc";
my $utf8 = $enc->decode($data);
print "$utf8\n";
Run Code Online (Sandbox Code Playgroud)
结果:无法猜测:iso-8859-1或utf8 at encodage-windows.pl第25行,第18110行.
use Encode::Guess qw/utf8 latin1/;
my $decoder = Encode::Guess->guess($data);
die $decoder unless ref($decoder);
my $utf8 = $decoder->decode($data);
print "$utf8\n";
Run Code Online (Sandbox Code Playgroud)
结果: iso-8859-1或utf8 at encodage-windows.pl第30行,第18110行.
use Encode::Guess qw/utf8 latin1/;
my $utf8 = Encode::decode("Guess", $data);
print "$utf8\n";
Run Code Online (Sandbox Code Playgroud)
结果: iso-8859-1或utf8位于/usr/local/lib/perl5/Encode.pm第175行.
我的第一个问题是:我应该使用哪种方法(如果有的话)?我的第二个问题是:我应该做些什么改变才能做到这一点?
我通常一次检查一次可能的编码,像这样
my $decoder = guess_encoding($data, 'utf8');
$decoder = guess_encoding($data, 'iso-8859-1') unless ref $decoder;
die $decoder unless ref $decoder;
printf "Decoding as %s\n\n", $decoder->name;
$data = $decoder->decode($data);
Run Code Online (Sandbox Code Playgroud)
如果可能的话,它选择UTF-8,否则尝试ISO-8859-1,然后选择它或错误,因此每种编码都会变成简单的是/否结果,并且没有办法得出两个可能的结果(这是您得到的错误)。
| 归档时间: |
|
| 查看次数: |
1392 次 |
| 最近记录: |