表示波斯语格式的字节串序列

TJ1*_*TJ1 3 python utf-8 character-encoding farsi

我有一系列UTF-8字符,例如:

\xd8\xa2\xd8\xb4\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xd8\xa8\xd8\xa7 \xd8\xa2\xd8\xb1\xd9\x85\xd8\xa7\xd9\x86 \xd9\xbe\xd8\xb1\xd9\x88\xda\x98\xd9\x87 \xd9\x84\xd8\xba\xd8\xaa \xd9\x86\xd8\xa7\xd9\x85\xd9\x87 \xd8\xa2\xd8\xb2\xd8\xa7\xd8\xaf
Run Code Online (Sandbox Code Playgroud)

我知道这是来自波斯语网站,应该代表一些波斯语单词.如何用波斯语字符表示此序列?

我正在使用Python来完成我的工作.

dot*_*hen 5

您只需要将字节序列视为字节序列,方法是在字面前加上字母b,然后解码为UTF-8.像这样:

$ python3
>>> text = b'\xd8\xa2\xd8\xb4\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xd8\xa8\xd8\xa7 \xd8\xa2\xd8\xb1\xd9\x85\xd8\xa7\xd9\x86 \xd9\xbe\xd8\xb1\xd9\x88\xda\x98\xd9\x87 \xd9\x84\xd8\xba\xd8\xaa \xd9\x86\xd8\xa7\xd9\x85\xd9\x87 \xd8\xa2\xd8\xb2\xd8\xa7\xd8\xaf'
>>> text.decode('utf-8')
'?????? ?? ????? ????? ??? ???? ????'
Run Code Online (Sandbox Code Playgroud)