使用 tweepy 将波斯语文本 unicode 转换为波斯语字符

mar*_*ral 5 python tweepy python-unicode

我正在尝试收集波斯语推文并进行文本分析。我用 tweepy 来做到这一点。但结果是unicode格式。如何将 unicode 文本转换为真正的波斯语文本?

\n\n
     import tweepy\n     import csv\n     import pandas as pd\n     ####input your credentials here\n     consumer_key = xxxx\n     consumer_secret = xxxx\n     access_token = xxxx\n     access_token_secret = xxxx\n\n    auth = tweepy.OAuthHandler(consumer_key, consumer_secret)\n    auth.set_access_token(access_token, access_token_secret)\n    api = tweepy.API(auth,wait_on_rate_limit=True)\n    #####United Airlines\n    # Open/Create a file to append data\n    csvFile = open(\'got5.txt\', \'a\')\n    #Use csv Writer\n    csvWriter = csv.writer(csvFile)\n\n    for tweet in tweepy.Cursor(api.search,q="\xda\xaf\xd8\xa7\xd8\xaa", count=5,\n                       lang="fa",\n                       since="2017-04-03").items():\ncsvWriter.writerow([tweet.created_at, tweet.text.encode(\'utf-8\')])\nprint([tweet.created_at, tweet.text.encode(\'utf-8\')])\n
Run Code Online (Sandbox Code Playgroud)\n\n

结果:

\n\n
    2019-07-11 17:09:17,b\'@StingTIcon \\xd8\\xa8\\xd8\\xa7\\xd8\\xb2 \\xd8\\xa7\\xdb\\x8c\\xd9\\x86 \\xd8\\xae\\xd9\\x88\\xd8\\xa8\\xd9\\x87 =)))))) \\xd8\\xa7\\xd9\\x88\\xd9\\x86\\xd8\\xa7\\xdb\\x8c\\xdb\\x8c \\xda\\xa9\\xd9\\x87 \\xd9\\x85\\xdb\\x8c\\xda\\xaf\\xd9\\x85 \\xd8\\xaa\\xd8\\xa7\\xd8\\xa8\\xd9\\x84\\xd9\\x88\\xd8\\xaa\\xd8\\xb1\\xdb\\x8c\\xd9\\x86 \\xd8\\xb3\\xd8\\xb1\\xdb\\x8c\\xd8\\xa7\\xd9\\x84\\xd8\\xa7 \\xd8\\xb1\\xd9\\x88 \\xda\\xa9\\xd9\\x87 \\xd9\\x87\\xd8\\xb1 \\xd8\\xae\\xd8\\xb1\\xdb\\x8c \\xd8\\xa7\\xd8\\xb3\\xd9\\x85\\xd8\\xb4\\xd9\\x88 \\xd8\\xb4\\xd9\\x86\\xdb\\x8c\\xd8\\xaf\\xd9\\x87 \\xd9\\xbe\\xdb\\x8c\\xd8\\xb4\\xd9\\x86\\xd9\\x87\\xd8\\xa7\\xd8\\xaf \\xd9\\x85\\xdb\\x8c\\xd8\\xaf\\xd9\\x86. \\xd9\\x84\\xd8\\xa7\\xd8\\xb3\\xd8\\xaa\\xd8\\x8c \\xd9\\x81\\xd8\\xb1\\xd8\\xa7\\xd8\\xb1 \\xd8\\xa7\\xd8\\xb2 \\xd8\\xb2\\xd9\\x86\\xd8\\xaf\\xd8\\xa7\\xd9\\x86\\xd8\\x8c \\xd8\\xa8\\xd8\\xb1\\xda\\xa9\\xdb\\x8c\\xd9\\x86\\xda\\xaf \\xd8\\xa8\\xd8\\xaf\\xd8\\x8c \\xda\\xaf\\xd8\\xa7\\xd8\\xaa\'\n\n2019-07-11 16:39:40,b\'@nik_yousefi \\xd9\\x81\\xd8\\xb5\\xd9\\x84 \\xd8\\xa2\\xd8\\xae\\xd8\\xb1\\xd9\\x88 \\xd9\\x86\\xd9\\x88\\xdb\\x8c\\xd8\\xb3\\xd9\\x86\\xd8\\xaf\\xd9\\x87 \\xd9\\x87\\xd8\\xa7\\xdb\\x8c \\xda\\xaf\\xd8\\xa7\\xd8\\xaa \\xd9\\x86\\xd9\\x88\\xd8\\xb4\\xd8\\xaa\\xd9\\x87 \\xd8\\xa8\\xd9\\x88\\xd8\\xaf\\xd9\\x86 \\xd9\\x81\\xda\\xa9\\xd8\\xb1 \\xda\\xa9\\xd9\\x86\\xd9\\x85 :))\'\n\n2019-07-11 15:54:40,b\'@charbsho \\xd9\\x81\\xda\\xa9\\xd8\\xb1 \\xda\\xa9\\xd8\\xb1\\xd8\\xaf\\xd9\\x85 \\xd8\\xb9\\xda\\xa9\\xd8\\xb3\\xdb\\x8c \\xda\\x86\\xdb\\x8c\\xd8\\xb2\\xdb\\x8c \\xd8\\xa7\\xd8\\xb2 \\xda\\xaf\\xd8\\xa7\\xd8\\xaa \\xda\\xaf\\xd8\\xb0\\xd8\\xa7\\xd8\\xb4\\xd8\\xaa\\xd9\\x86 \\xda\\xa9\\xd9\\x87 \\xd8\\xb3\\xd8\\xb1 \\xd9\\x86\\xd8\\xaf \\xd8\\xa7\\xd8\\xb3\\xd8\\xaa\\xd8\\xa7\\xd8\\xb1\\xda\\xa9\\xd9\\x88 \\xd8\\xb2\\xd8\\xaf\\xd9\\x86=))))))))\n
Run Code Online (Sandbox Code Playgroud)\n\n

有人可以告诉我如何去做吗?

\n

Ald*_*ven 7

你可以这样转换它:

\n
string = b'@StingTIcon \\xd8\\xa8\\xd8\\xa7\\xd8\\xb2 \\xd8\\xa7\\xdb\\x8c\\xd9\\x86 \\xd8\\xae\\xd9\\x88\\xd8\\xa8\\xd9\\x87 =)))))) \\xd8\\xa7\\xd9\\x88\\xd9\\x86\\xd8\\xa7\\xdb\\x8c\\xdb\\x8c \\xda\\xa9\\xd9\\x87 \\xd9\\x85\\xdb\\x8c\\xda\\xaf\\xd9\\x85 \\xd8\\xaa\\xd8\\xa7\\xd8\\xa8\\xd9\\x84\\xd9\\x88\\xd8\\xaa\\xd8\\xb1\\xdb\\x8c\\xd9\\x86 \\xd8\\xb3\\xd8\\xb1\\xdb\\x8c\\xd8\\xa7\\xd9\\x84\\xd8\\xa7 \\xd8\\xb1\\xd9\\x88 \\xda\\xa9\\xd9\\x87 \\xd9\\x87\\xd8\\xb1 \\xd8\\xae\\xd8\\xb1\\xdb\\x8c \\xd8\\xa7\\xd8\\xb3\\xd9\\x85\\xd8\\xb4\\xd9\\x88 \\xd8\\xb4\\xd9\\x86\\xdb\\x8c\\xd8\\xaf\\xd9\\x87 \\xd9\\xbe\\xdb\\x8c\\xd8\\xb4\\xd9\\x86\\xd9\\x87\\xd8\\xa7\\xd8\\xaf \\xd9\\x85\\xdb\\x8c\\xd8\\xaf\\xd9\\x86. \\xd9\\x84\\xd8\\xa7\\xd8\\xb3\\xd8\\xaa\\xd8\\x8c \\xd9\\x81\\xd8\\xb1\\xd8\\xa7\\xd8\\xb1 \\xd8\\xa7\\xd8\\xb2 \\xd8\\xb2\\xd9\\x86\\xd8\\xaf\\xd8\\xa7\\xd9\\x86\\xd8\\x8c \\xd8\\xa8\\xd8\\xb1\\xda\\xa9\\xdb\\x8c\\xd9\\x86\\xda\\xaf \\xd8\\xa8\\xd8\\xaf\\xd8\\x8c \\xda\\xaf\\xd8\\xa7\\xd8\\xaa'\nresult = string.decode('unicode-escape').encode('latin1').decode('utf-8')\n
Run Code Online (Sandbox Code Playgroud)\n

输出:

\n
@StingTIcon \xd8\xa8\xd8\xa7\xd8\xb2 \xd8\xa7\xdb\x8c\xd9\x86 \xd8\xae\xd9\x88\xd8\xa8\xd9\x87 =)))))) \xd8\xa7\xd9\x88\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xda\xa9\xd9\x87 \xd9\x85\xdb\x8c\xda\xaf\xd9\x85 \xd8\xaa\xd8\xa7\xd8\xa8\xd9\x84\xd9\x88\xd8\xaa\xd8\xb1\xdb\x8c\xd9\x86 \xd8\xb3\xd8\xb1\xdb\x8c\xd8\xa7\xd9\x84\xd8\xa7 \xd8\xb1\xd9\x88 \xda\xa9\xd9\x87 \xd9\x87\xd8\xb1 \xd8\xae\xd8\xb1\xdb\x8c \xd8\xa7\xd8\xb3\xd9\x85\xd8\xb4\xd9\x88 \xd8\xb4\xd9\x86\xdb\x8c\xd8\xaf\xd9\x87 \xd9\xbe\xdb\x8c\xd8\xb4\xd9\x86\xd9\x87\xd8\xa7\xd8\xaf \xd9\x85\xdb\x8c\xd8\xaf\xd9\x86. \xd9\x84\xd8\xa7\xd8\xb3\xd8\xaa\xd8\x8c \xd9\x81\xd8\xb1\xd8\xa7\xd8\xb1 \xd8\xa7\xd8\xb2 \xd8\xb2\xd9\x86\xd8\xaf\xd8\xa7\xd9\x86\xd8\x8c \xd8\xa8\xd8\xb1\xda\xa9\xdb\x8c\xd9\x86\xda\xaf \xd8\xa8\xd8\xaf\xd8\x8c \xda\xaf\xd8\xa7\xd8\xaa\n
Run Code Online (Sandbox Code Playgroud)\n