在文本文件中查找非ASCII字符并将其转换为其Unicode等效字符

Question

我从远程服务器导入.txt文件并将其保存到数据库.我为此目的使用.Net脚本.我有时会注意到文件中出现乱码/字符(Uller?kersv?gen),这会在保存到数据库时出现问题.

我想过滤所有这些字符并在保存到数据库之前将它们转换为unicode.

注意:我经历了很多类似的帖子,但没有运气.

在此背景下,您的帮助将受到高度赞赏.

谢谢.

Answer 1

假设您的脚本确实知道文本片段的正确编码,那么应该是正则表达式来查找所有非ASCII字符:

[^\x00-\x7F]+

此外,base-R工具包提供了两个检测非ASCII字符的函数:

tools::showNonASCII()
tools::showNonASCIIfile()