Abh*_*sad 5 unix bash shell sed uniq
尝试从MacOS bash shell中的大文件中提取非英语字符时出现"非法字节序列"错误.这是我尝试使用的脚本:
sed 's/[][a-z,0-9,A-Z,!@#\$%^&*(){}":/_-|. -][\;''=?]*//g' < $1 >Abhineet_extract1.txt;
sed 's/\(.\)/\1\
/g' <Abhineet_extract1.txt | sort | uniq |tr -d '\n' >&1;
rm Abhineet_extract1.txt;
Run Code Online (Sandbox Code Playgroud)
这是我得到的错误:
uniq: stdin: Illegal byte sequence
Run Code Online (Sandbox Code Playgroud)
"+?
dev*_*ull 13
似乎UTF-8语言环境正在造成Illegal byte sequence.
相反说:
LC_CTYPE=C your_command
Run Code Online (Sandbox Code Playgroud)
man locale 说:
These environment variables affect each locale categories for all
locale-aware programs:
LC_CTYPE
Character classification and case conversion.
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
12499 次 |
| 最近记录: |