raku 可以避免这种格式错误的 UTF-8 错误吗？

Question

raku 可以避免这种格式错误的 UTF-8 错误吗？

当我运行这个 raku 脚本时...

my $proc = run( 'tree', '--du', :out);
$proc.out.slurp(:close).say;

Run Code Online (Sandbox Code Playgroud)

我在 MacOS 上收到此错误...

Malformed UTF-8 near bytes ef b9 5c

Run Code Online (Sandbox Code Playgroud)

......而不是像zsh这样的树输出，这是我想要的......

.
??? 00158825_20210222_0844.csv
??? 1970-Article\ Text-1971-1-2-20210118.docx
??? 1976-Article\ Text-1985-1-2-20210127.docx
??? 2042-Article\ Text-2074-1-10-20210208.pdf
??? 2045-Article\ Text-2076-1-10-20210208.pdf
??? 6.\ Guarantor\ Form\ (A).pdf

Run Code Online (Sandbox Code Playgroud)

我试过slurp(:close, enc=>'utf8-c8')了，错误是一样的。

我也试过...

 shell( "tree --du >> .temp.txt" );
 my @lines = open(".temp.txt").lines;
 dd @lines;

Run Code Online (Sandbox Code Playgroud)

......错误是一样的。

打开 .temp.txt 揭示了这一点......

.
â<94><9c>â<94><80>â<94><80> [    1016739]  True  
â<94><9c>â<94><80>â<94><80> [ 9459042241]  dir-name
â<94><82>Â Â  â<94><9c>â<94><80>â<94><80> [     188142]  Business
â<94><82>Â Â  â<94><82>Â Â  â<94><9c>â<94><80>â<94><80> [       9117]  KeyDates.xlsx
â<94><82>Â Â  â<94><82>Â Â  â<94><9c>â<94><80>â<94><80> [      13807]  MondayNotes.docx

Run Code Online (Sandbox Code Playgroud)

文件 - 我给这个...

.temp.txt: text/plain; charset=unknown-8bit

Run Code Online (Sandbox Code Playgroud)

有什么建议吗？

[这是 Catalina 10.15.17，终端编码 Unicode(UTF-8) 欢迎使用™ v2020.10。实现™ 编程语言 v6.d。基于 MoarVM 版本 2020.10。]

Answer 1

Bra*_*ert 6

您的代码页/语言环境似乎不是 Utf8。（或者tree忽略代码页并使用不同的东西。）

很快……得到一些东西，任何东西；是使用 8 位单字节编码。

run( 'tree', '--du', :out, :enc<latin1> );

Run Code Online (Sandbox Code Playgroud)

通常足以看到 Utf8 解码开始出错的地方。

也就是说，让我们看看您的预期输出和文件输出。

say '???'.encode; # utf8:0x<E2 94 9C E2 94 80 E2 94 80>

Run Code Online (Sandbox Code Playgroud)

在您的文件中，您有

â<94><9c>â<94><80>â<94><80> [    1016739]  True

Run Code Online (Sandbox Code Playgroud)

等待 …

say 'â'.encode('latin1'); # Blob[uint8]:0x<E2>

Run Code Online (Sandbox Code Playgroud)

<E2><94><9c><E2><94><80><E2><94><80>

       <E2 94 9c E2 94 80 E2 94 80>

utf8:0x<E2 94 9C E2 94 80 E2 94 80>

Run Code Online (Sandbox Code Playgroud)

是的，这些看起来非常相似。
因为它们完全相同。

因此，它似乎确实在某种程度上产生了预期的输出。

这似乎证实了，是的tree，您的代码之间存在编码问题。这表明代码页/语言环境设置错误。

您还没有真正提供足够的信息来准确找出哪里出了问题。您应该使用run二进制模式来为我们提供准确的输出。

say run('echo', 'hello', :out, :bin).out.slurp;
# Buf[uint8]:0x<68 65 6C 6C 6F 0A>

Run Code Online (Sandbox Code Playgroud)

您也没有说明是否<9c>在文件中字面上是四个文本字符，或者它是否是您用来打开文件将二进制数据转换为文本的任何功能的功能。

如果所有示例数据都是相同的，那也很好。

在一个稍微相关的说明上......

由于tree给出了文件名，并且文件名不是 Unicode，utf8-c8因此在这里使用是合适的。
（用户名和密码通常也是如此。）

这是我在计算机上运行的一些代码，希望能说明原因。

say dir(:test(/^ r.+sum.+ $/)).map: *.relative.encode('utf8-c8').decode
# (résumé résumé résumé résumé)

dir(:test(/^ r.+sum.+ $/)).map: *.relative.encode('utf8-c8').say
# Blob[uint8]:0x<72 65 CC 81 73 75 6D 65 CC 81>
# Blob[uint8]:0x<72 C3 A9 73 75 6D 65 CC 81>
# Blob[uint8]:0x<72 C3 A9 73 75 6D C3 A9>
# Blob[uint8]:0x<72 65 CC 81 73 75 6D C3 A9>

say 'é'.NFC;
# NFC:0x<00e9>
say 'é'.NFD
# NFD:0x<0065 0301>

sub to-Utf8 ( Uni:D $_ ){
   .map: *.chr.encode
}

say to-Utf8 'é'.NFC
# (utf8:0x<C3 A9>)
say to-Utf8 'é'.NFD
# (utf8:0x<65> utf8:0x<CC 81>)

Run Code Online (Sandbox Code Playgroud)

Soé要么被编码为一个组合的代码点，要么被编码为<C3 A9>两个分解的代码点<65> <CC 81>。

我真的为此创建了 4 个“同名”文件吗？
是的。是的，我做到了。

归档时间：	4 年，8 月前
查看次数：	201 次
最近记录：	4 年，8 月前