如何从文本文件中删除非UTF-8字符

Question

我有一堆阿拉伯语,英语,俄语文件,用utf-8编码.尝试使用Perl脚本处理这些文件,我收到此错误:

Malformed UTF-8 character (fatal)

手动检查这些文件的内容,我发现其中有一些奇怪的字符.现在我正在寻找一种从文件中自动删除这些字符的方法.

无论如何要做到这一点？

Answer 1

这个命令:

iconv -f utf-8 -t utf-8 -c file.txt

将清除您的UTF-8文件,跳过所有无效字符.

-f is the source format
-t the target format
-c skips any invalid sequence

Answer 2

iconv 可以做到

iconv -f cp1252 foo.txt