从python字符串中删除unicode字符

Question

我在Python中有一个字符串,如下所示:

u'\u200cHealth & Fitness'

我怎么能删除

\u200c

部分来自字符串？

Answer 1

您可以将其编码ascii并忽略错误:

u'\u200cHealth & Fitness'.encode('ascii', 'ignore')

输出:

'Health & Fitness'

Answer 2

如果你有一个包含Unicode字符的字符串,比如

s = "Airports Council International \u2013 North America"

然后你可以尝试:

newString = (s.encode('ascii', 'ignore')).decode("utf-8")

输出将是:

Airports Council International North America

Upvote如果有帮助 :)

Answer 3

我只是使用替换因为我不需要它：

varstring.replace('\u200c', '')

或者在你的情况下：

u'\u200cHealth & Fitness'.replace('\u200c', '')

这是通用解决方案，因为 ascii 也可能删除一些其他 Unicode 字符。 (4认同)
这实际上比大多数字符串中接受的答案要好。\u200c 是一个零宽度的非连接符，它是一个不寻常的空白类型字符，被 `strip()` 忽略。在大多数情况下，对于 unicode strs，您不想“编码（ascii，忽略）”。 (3认同)

Answer 4

对我来说以下有效

mystring.encode('ascii', 'ignore').decode('unicode_escape')