支持utf的coreutils？

Cha*_* Xu 18 coreutils cut unicode

我cut今天用的时候发现它不把一个UTF-8字符当作一个字符，而是把3个字符当作一个字符来对待，因为它有3个字节长。

对于许多工具来说，这似乎通常是正确的。

是否有支持coreutilsUTF-8 的版本？

我的locale输出：

LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=

Run Code Online (Sandbox Code Playgroud)

这是cut不起作用的时候

echo ?? | cut -c 2-
???

Run Code Online (Sandbox Code Playgroud)

正确的输出应该是

Run Code Online (Sandbox Code Playgroud)

如果cut -c使用多字节字符。

GNU coreutils 确实理解 UTF-8。例如echo ?? | wc -m，3在 UTF-8 语言环境中正确输出（请注意，该选项是-m，而不是-c由于历史原因，这意味着字节）。

这是cut. 查看, on characters的来源cutcut根本没有实现：该-c选项被视为的同义词-b。

一种解决方法是使用 awk。GNU awk 可以很好地处理 UTF-8。

awk '{print substr($0,2,length)}'

Run Code Online (Sandbox Code Playgroud)

值得提交错误报告（即使它最终是重复的）来惹恼 coreutils 维护者实际修复这样的错误，而不是仅仅添加没人需要的愚蠢的黑客和玩具实用程序...... (9认同)

归档时间：	14 年，2 月前
查看次数：	2447 次
最近记录：	9 年，10 月前

如何在 Bash 中获取 http 链接的最后一部分？ 36

如何打印输入字符串的 Unicode 字形名称？ 12

怎么转换？？？？？？带 enscript 的 TXT 到 PDF？ 7

安装可以用于暂存符号链接吗？ 7

下周一是什么时候？ 7

使用 find 命令预先添加到文件名 6

Mutt 附件中的 Unicode 字符 4

实时日志检查管道尾部、grep 和 cut 的问题 3

为什么有一个 '.' 在重庆工作？ 3

帮助理解脚本中的 cut 命令 2

是否可以在 known_hosts 文件中找出主机？ 155

我怎么知道 dd 是否仍在工作？ 153

如何将终端附加到分离的进程？ 128

Linux 上什么是高内存和低内存？ 111

tput setaf 颜色表？如何确定颜色代码？ 109

设置 /proc/sys/vm/drop_caches 以清除缓存 104

命令列出 PostgreSQL 用户帐户？ 102

您最喜欢的命令行功能或技巧是什么？ 93

当我运行命令 cat /proc/cpuinfo 时会发生什么？ 90

如何从执行命令的结果中执行 if 语句 85