不能在 UTF-8 中使用 `cut -c`（`--characters`）吗？

$ locale
LANG=en_US.UTF-8
LANGUAGE=en_US
LC_CTYPE=en_US.UTF-8
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=

Run Code Online (Sandbox Code Playgroud)

输入，逐字节：

$ printf '???' | hd 
00000000  ce b1 ce b2 ce b3                                 |......|
00000006

Run Code Online (Sandbox Code Playgroud)

Answer 1

Mic*_*mer 18

你还没有说cut你在使用哪个，但既然你提到了 GNU 长选项，--characters我假设它就是那个选项。在这种情况下，请注意以下段落info coreutils 'cut invocation'：

‘-c character-list’
‘--characters=character-list’
Run Code Online (Sandbox Code Playgroud)
选择仅打印字符列表中列出的位置中的字符。与-b现在相同，但国际化将改变这一点。

（强调）

目前，GNUcut始终以单字节“字符”的形式工作，因此您看到的行为是意料之中的。

POSIX 要求同时支持-b和-c选项——它们没有被添加到 GNU 中，因为它具有多字节支持并且它们工作正常，但为了避免在符合 POSIX 的输入上出错。在其他一些实现中也做了同样的事情，尽管至少不是FreeBSD和OS X。cut-ccut

这是历史行为的-c。-b新添加来接管字节角色，以便-c可以处理多字节字符。也许几年后它会一直按预期工作，尽管进展并不快（已经十多年了）。GNUcut 甚至还没有实现这个-n选项，即使它是正交的并且旨在帮助转换。旧脚本存在潜在的兼容性问题，这可能是一个问题，尽管我不确切知道原因是什么。

Answer 2

Roy*_*ams 7

由于许多grep实现都是多字节感知的，因此您还可以使用grep -o它来模拟cut -c.

\n

前两个字符：

\n

$ echo \xce\xa4\xce\xb7\xce\xb5\xce\xbf\xce\xb429 | grep -o '^..'\n\xce\xa4\xce\xb7\n

Run Code Online (Sandbox Code Playgroud)\n

最后三个字符：

\n

$ echo \xce\xa4\xce\xb7\xce\xb5\xce\xbf\xce\xb429 | grep -o '...$'\n\xce\xb429\n

Run Code Online (Sandbox Code Playgroud)\n

第二个字符：

\n

$ echo \xce\xa4\xce\xb7\xce\xb5\xce\xbf\xce\xb429 | grep -o '^..' | grep -o '.$'\n\xce\xb7\n

Run Code Online (Sandbox Code Playgroud)\n

调整句点数量或使用{x,y}语法来模拟cut范围。

\n

Answer 3

Ski*_*rou 6

colrm（部分util-linux, 应该已经安装在大多数发行版上）似乎可以更好地处理国际化：

$ echo '???' | colrm 3
??
$ echo '???' | colrm 2
?

Run Code Online (Sandbox Code Playgroud)

注意编号：colrm N将从中删除列N，最多打印字符N-1。

（学分）

归档时间：	10 年，11 月前
查看次数：	5083 次
最近记录：	4 年，8 月前