如何在Perl中将命令行参数视为UTF-8?

kno*_*orv 17 unicode perl utf-8

如何@ARGV在Perl中将UTF-8 的元素视为?

目前我正在使用以下解决方案..

use Encode qw(decode encode);

my $foo = $ARGV[0];
$foo = decode("utf-8", $foo);
Run Code Online (Sandbox Code Playgroud)

..哪个有效,但不是很优雅.

我使用的是Perl v5.8.8,它是从bash v3.2.25调用的,LANG设置为en_US.UTF-8.

bri*_*foy 29

在Perl中,外部数据源很棘手.对于命令行参数,您可能会将它们作为区域设置中指定的编码.不要依赖您的语言环境与可能运行您的程序的其他人相同.

你必须找出那些然后转换为Perl的内部格式.幸运的是,这并不难.

国际化:: Langinfo模块,你需要获得编码的东西:

    use I18N::Langinfo qw(langinfo CODESET);
    my $codeset = langinfo(CODESET);
Run Code Online (Sandbox Code Playgroud)

一旦知道编码,就可以将它们解码为Perl字符串:

    use Encode qw(decode);
    @ARGV = map { decode $codeset, $_ } @ARGV;
Run Code Online (Sandbox Code Playgroud)

虽然Perl将内部字符串编码为UTF-8,但您不应该想到或知道这一点.您只需解码所获得的任何内容,然后将其转换为Perl的内部表示形式.相信Perl会处理其他所有事情.当您需要存储数据时,请确保使用您喜欢的编码.

如果您知道您的设置是UTF-8并且终端将为您提供UTF-8的命令行参数,则可以将该A选项与Perl的-C开关一起使用.这告诉你的程序假设参数被编码为UTF-8:

% perl -CA program
Run Code Online (Sandbox Code Playgroud)

你也可以使用just -C,它可以打开其他几个Unicode选项:

% perl -C program
Run Code Online (Sandbox Code Playgroud)

然而,我发现"如果你知道"是一个真正意味着"我们不确定"的大红旗.

  • 我对这个答案的问题是在Win32上没有I18N :: Langinfo(即使它在核心列表中!). (2认同)

Mic*_*elB 8

使用Encode :: Locale:

use Encode::Locale;

decode_argv Encode::FB_CROAK;
Run Code Online (Sandbox Code Playgroud)

这也适用于Win32,对我来说还算不错.