是否真的PHP中的字符串文字只能编码为ASCII的兼容超集,如UTF-8或ISO-8859-1?

PHP*_*Nut 8 php encoding ascii utf-8 non-ascii-characters

我从PHP手册的"字符串类型"页面的详细信息中看到以下文本:

鉴于PHP没有规定字符串的特定编码,人们可能想知道字符串文字是如何编码的.字符串将以脚本文件中编码的任何方式进行编码.因此,如果脚本是用ISO-8859-1编写的,则字符串将以ISO-8859-1编码,依此类推.但是,如果启用了Zend Multibyte,则不适用; 在这种情况下,脚本可以用任意编码(明确声明或检测到)编写,然后转换为某种内部编码,然后编码将用于字符串文字.请注意,对脚本的编码存在一些限制(或者在内部编码上,如果启用了Zend Multibyte) - 这几乎总是意味着此编码应该是ASCII的兼容超集,例如UTF-8或ISO-8859 -1.

所以我的疑问是,PHP中的字符串文字只能编码为ASCII的兼容超集编码,例如UTF-8ISO-8859-1,而不是编码不兼容的超集的ASCII

是否有可能以编码在PHP字符串文字在一些非ASCII兼容像编码UTF-16,UTF-32或一些其它这样的非ASCII兼容编码?如果是,那么在这种非ASCII兼容编码中编码的字符串文字是否可以与mb_string_*函数一起使用?如果不是,那是什么原因?

假设,Zend Multibyte已启用,我已将内部编码设置为兼容ASCII超集,例如UTF-8ISO-8859-1或其他一些非ASCII兼容编码.现在,我可以在脚本文件中声明不是ASCII 兼容超集的编码,例如UTF-16UTF-32吗?

如果是,那么在这种情况下编码字符串文字的编码是什么?如果不是,那是什么原因?

另外,如果启用了Zend Multibyte,请解释一下这个编码对于字符串文字是如何工作的?

如何启用Zend Multibyte?背后有什么把它的主要意图?当需要把它

如果你能用合适的例子清楚我的怀疑,那会更好.

谢谢.

dec*_*eze 5

PHP源代码文件中的字符串文字按字面意义视为源代码文件中存在的原始字节。如果您的源代码中有表示UTF-16字符串的字节或其他真正的字节,则可以直接使用它们:

$ echo -n '<?php echo "' > test.php
$ echo -n ??? | iconv -t UTF-16 >> test.php 
$ echo '";' >> test.php 
$ cat test.php 
<?php echo "??e?g,??";
$ cat test.php | xxd
00000000: 3c3f 7068 7020 6563 686f 2022 feff 65e5  <?php echo "..e.
00000010: 672c 8a9e 223b 0a                        g,..";.
$ php test.php 
??e?g,??$ 
$ php test.php | iconv -f UTF-16
???
Run Code Online (Sandbox Code Playgroud)

这演示了一个表面上用ASCII编写的源代码文件,但中间包含一个UTF-16字符串文字,该文件原样输出。

这种源代码的最大问题是很难使用。介于痛苦之间,无法让文本编辑器以一种编码方式处理PHP代码,以另一种编码方式处理字符串文本。因此,通常,您希望将整个源代码(包括字符串文字)保持为一种且始终采用相同的编码。

您也很容易遇到麻烦:

$ echo -n '<?php echo "' > test.php
$ echo -n ?? | iconv -t UTF-16 >> test.php 
$ echo '";' >> test.php 
$ cat test.php | xxd
00000000: 3c3f 7068 7020 6563 686f 2022 feff 6f22  <?php echo "..o"
00000010: 5b57 223b 0a                             [W";.
Run Code Online (Sandbox Code Playgroud)

“?” 此处编码为feff 6f22 5b57,其中包含22",是字符串文字终止符,这意味着您现在遇到语法错误。

默认情况下,PHP解释器期望PHP代码与ASCII兼容,因此,如果您希望将字符串文字和其余的源代码保持在相同的编码中,则几乎仅限于与ASCII兼容的编码。但是,如果相应地声明使用的编码,则Zend Multibyte扩展名允许您使用其他编码(如果不兼容ASCII,则在php.ini中)。因此,您可以始终使用Shift-JIS编写源代码。甚至可能还有其他一些编码形式的字符串文字*。

*(这时我将不再赘述,因为怎么了?!)

摘要:

  • PHP必须了解所有PHP代码;默认情况下,它可以理解ASCII,通过Zend Multibyte,它也可以理解其他编码。
  • 源代码中的字符串文字可以包含所需的任何字节,只要PHP不会将它们解释为字符串文字中的特殊字符(例如,22上面的示例),在这种情况下,您需要对它们进行转义(使用反斜杠)通用源代码的编码)。
  • 运行时的字符串值将是从字符串文字中读取的原始字节序列PHP。

综上所述,与ASCII兼容编码相背离通常是一个痛苦的过程。如果您的工作流程中的某些工具对文件的处理不正确,这在文本编辑器中是很痛苦的,并且很容易导致mojibake。我最多建议使用兼容ASCII的编码,例如:

echo "???";  // UTF-8 encoded (let's hope)
Run Code Online (Sandbox Code Playgroud)

如果必须具有不兼容ASCII的字符串文字,则应使用字节符号:

echo "\xfe\xff\x65\xe5\x67\x2c\x8a\x9e";
Run Code Online (Sandbox Code Playgroud)

或转换:

echo iconv('UTF-8', 'UTF-16', '???');
Run Code Online (Sandbox Code Playgroud)

[..]以这种非ASCII兼容编码之一编码的字符串文字是否可以与mb_string_*函数一起使用?

当然,出于所有目的和目的,PHP中的字符串都是原始字节数组。无论如何获取该字符串都无关紧要。如果您具有通过上述任何一种方法获得的UTF-16字符串(包括通过将其以UTF-16形式硬编码为源代码),则您具有UTF-16编码的字符串,可以将其放入任何和所有的字符串函数中,知道如何处理。


Dor*_*ich 0

如何启用 Zend 多字节?

使用该--enable-zend-multibyte标志(PHP 5.4 之前)编译 PHP 并zend.multibyte激活php.ini.

比照。https://secure.php.net/manual/en/ini.core.php#ini.zend.multibytehttps://secure.php.net/manual/en/configure.about.php#configure.options。 php