在 Perl 中，为什么 utf-8 字符串在拆分为字符时打印的不同？

Question

在 Perl 中，为什么 utf-8 字符串在拆分为字符时打印的不同？

Ale*_*ukh 5 string unicode perl utf-8 language-lawyer

当我使用时，特殊构造的字符串的打印方式不同

print $b;

Run Code Online (Sandbox Code Playgroud)

或者

print for split //, $b;

Run Code Online (Sandbox Code Playgroud)

一个最小的例子是：

#!perl
use warnings;
use strict;

use Encode;

my $b = decode 'utf8', "\x{C3}\x{A1}\x{E2}\x{80}\x{93}\x{C3}\x{A1}"; # 'á–á' in Unicode;

print $b, "\n";
print for split //, $b

Run Code Online (Sandbox Code Playgroud)

控制台屏幕上的输出（我想我使用的是 cp860）是：

Wide character in print at xx.pl line 9.
?íÔÇô?í
Wide character in print at xx.pl line 10.
ßÔÇôß

Run Code Online (Sandbox Code Playgroud)

或十六进制：

C3 A1 E2 80 93 C3 A1 
E1 E2 80 93 E1

Run Code Online (Sandbox Code Playgroud)

（0D 0A当然由分隔，即，\r\n）。

问题是为什么角色呈现不同？

令人惊讶的是，如果没有 em-dash，效果就会消失。对于较长的字符串，可以看到效果，如以下示例所示。

对于字符串 'Él es mi tío Toño –Antonio Pérez'（在程序中输入为 Unicode；注意这两行是不同的！）：

Wide character in print at xx.pl line 14.
?ël es mi t?¡o To??o ÔÇôAntonio P?®rez
Wide character in print at xx.pl line 15.
?l es mi tÝo To±o ÔÇôAntonio PÚrez

Run Code Online (Sandbox Code Playgroud)

但是，对于字符串 'Él es mi tío Toño, Antonio Pérez'：

?l es mi tÝo To±o, Antonio PÚrez
?l es mi tÝo To±o, Antonio PÚrez

Run Code Online (Sandbox Code Playgroud)

没有什么不好的事情发生，两条线以相同的方式呈现。唯一的区别是存在一个短划线–，即'\x{E2}\x{80}\x{93}'!

此外，print join '', split //, $b;给出与相同print $b;但不同的结果print for split //, $b;。

如果我添加binmode STDOUT, 'utf8';，那么两个输出都是ÔÇô?í= E2 80 93 C3 A1。

所以我的问题不完全是关于如何避免它，而是关于为什么会发生这种情况：为什么相同的字符串在拆分时表现不同？

显然，在这两种情况下，utf8标志都打开了。这是一个更详细的程序，显示了有关两个字符串的更多信息：$abeforedecode和$bafter decode：

#!perl
use warnings;
use strict;
use 5.010;

use Encode;

my $a = "\x{C3}\x{A1}\x{E2}\x{80}\x{93}\x{C3}\x{A1}"; # 'á–á' in Unicode;
my $b = decode 'utf8', $a;

say '------- length and utf8 ---------';
say "Length (a)=", length $a, ", is_uft8(a)=", (Encode::is_utf8 ($a) // 'no'), ".";
say "Length (b)=", length $b, ", is_uft8(b)=", (Encode::is_utf8 ($b) // 'no'), ".";
say '------- as a variable---------';
say "a: $a";
say "b: $b", ' <== *** WHY?! ***';
say '------- split ---------';
print "a: "; print for split //, $a; say '';
print "b: "; print for split //, $b; say ' <== *** DIFFERENT! ***';
say '------- split with spaces ---------';
print "a: "; print "[$_] " for split //, $a; say '';
print "b: "; print "[$_] " for split //, $b; say '';
say '------- split with properties ---------';
print "a: "; print "[$_ is_utf=" . Encode::is_utf8 ($_) . " length=" . length ($_) . "] " for split //, $a; say '';
print "b: "; print "[$_ is_utf=" . Encode::is_utf8 ($_) . " length=" . length ($_) . "] " for split //, $b; say '';
say '------- ord() ---------';
print "a: "; print ord, " " for split //, $a; say '';
print "b: "; print ord, " " for split //, $b; say '';

Run Code Online (Sandbox Code Playgroud)

这是它在控制台上的输出：

------- length and utf8 ---------
Length (a)=7, is_uft8(a)=.
Length (b)=3, is_uft8(b)=1.
------- as a variable---------
a: ?íÔÇô?í
Wide character in say at x.pl line 16.
b: ?íÔÇô?í <== *** WHY?! ***
------- split ---------
a: ?íÔÇô?í
Wide character in print at x.pl line 19.
b: ßÔÇôß <== *** DIFFERENT! ***
------- split with spaces ---------
a: [?] [í] [Ô] [Ç] [ô] [?] [í]
Wide character in print at x.pl line 22.
b: [ß] [ÔÇô] [ß]
------- split with properties ---------
a: [? is_utf= length=1] [í is_utf= length=1] [Ô is_utf= length=1] [Ç is_utf= length=1] [ô is_utf= length=1] [? is_utf= length=1] [í is_utf= length=1]
Wide character in print at x.pl line 25.
b: [ß is_utf=1 length=1] [ÔÇô is_utf=1 length=1] [ß is_utf=1 length=1]
------- ord() ---------
a: 195 161 226 128 147 195 161
b: 225 8211 225

Run Code Online (Sandbox Code Playgroud)

Answer 1

ike*_*ami 4

区别在于打印的字符串是否包含大于 255 个的字符。print只知道你在那种情况下做错了什么^[1]。

给定一个没有 no 的句柄:encoding，print需要一个字节字符串（字符串≤255）。

当它没有接收字节（字符串包含的字符 >255）时，它会通知您错误（“宽字符”）并猜测您打算使用 UTF-8 对字符串进行编码。

您可以将print不带 no 的句柄:encoding视为执行以下操作：

if ($s =~ /[^\x00-\xFF]/) {
   warn("Wide character");
   utf8::encode($s);
}

Run Code Online (Sandbox Code Playgroud)

my $b = decode 'utf8', "\x{C3}\x{A1}\x{E2}\x{80}\x{93}\x{C3}\x{A1}";

Run Code Online (Sandbox Code Playgroud)

是相同的

my $b = "\xE1\x{2013}\xE1";

Run Code Online (Sandbox Code Playgroud)

因此，你正在做

print "\xE1\x{2013}\xE1";
print "\xE1";
print "\x{2013}";
print "\xE1";

Run Code Online (Sandbox Code Playgroud)

```
print "\xE1\x{2013}\xE1";   # Wide char! C3 A1 E2 80 93 C3 A1
```
Run Code Online (Sandbox Code Playgroud)
Perl 注意到您忘记编码，向您发出警告，并打印使用 UTF-8 编码的字符串。
```
print "\xE1";               # E1
```
Run Code Online (Sandbox Code Playgroud)
Perl 无法知道您忘记编码，因此它会打印您要求它打印的内容。
```
print "\x{2013}";           # Wide char! E2 80 93
```
Run Code Online (Sandbox Code Playgroud)
Perl 注意到您忘记编码，向您发出警告，并打印使用 UTF-8 编码的字符串。

脚注

存储格式的选择（由返回is_utf8）不应该产生影响。print正确地不受它的影响。
```
utf8::downgrade( my $d = chr(0xE1) );  print($d);  # UTF8=0 prints E1
utf8::upgrade(   my $u = chr(0xE1) );  print($u);  # UTF8=1 prints E1
```
Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，7 月前
查看次数：	2281 次
最近记录：	7 年，5 月前