mar*_*ral 5 python tweepy python-unicode
我正在尝试收集波斯语推文并进行文本分析。我用 tweepy 来做到这一点。但结果是unicode格式。如何将 unicode 文本转换为真正的波斯语文本?
\n\n import tweepy\n import csv\n import pandas as pd\n ####input your credentials here\n consumer_key = xxxx\n consumer_secret = xxxx\n access_token = xxxx\n access_token_secret = xxxx\n\n auth = tweepy.OAuthHandler(consumer_key, consumer_secret)\n auth.set_access_token(access_token, access_token_secret)\n api = tweepy.API(auth,wait_on_rate_limit=True)\n #####United Airlines\n # Open/Create a file to append data\n csvFile = open(\'got5.txt\', \'a\')\n #Use csv Writer\n csvWriter = csv.writer(csvFile)\n\n for tweet in tweepy.Cursor(api.search,q="\xda\xaf\xd8\xa7\xd8\xaa", count=5,\n lang="fa",\n since="2017-04-03").items():\ncsvWriter.writerow([tweet.created_at, tweet.text.encode(\'utf-8\')])\nprint([tweet.created_at, tweet.text.encode(\'utf-8\')])\nRun Code Online (Sandbox Code Playgroud)\n\n结果:
\n\n 2019-07-11 17:09:17,b\'@StingTIcon \\xd8\\xa8\\xd8\\xa7\\xd8\\xb2 \\xd8\\xa7\\xdb\\x8c\\xd9\\x86 \\xd8\\xae\\xd9\\x88\\xd8\\xa8\\xd9\\x87 =)))))) \\xd8\\xa7\\xd9\\x88\\xd9\\x86\\xd8\\xa7\\xdb\\x8c\\xdb\\x8c \\xda\\xa9\\xd9\\x87 \\xd9\\x85\\xdb\\x8c\\xda\\xaf\\xd9\\x85 \\xd8\\xaa\\xd8\\xa7\\xd8\\xa8\\xd9\\x84\\xd9\\x88\\xd8\\xaa\\xd8\\xb1\\xdb\\x8c\\xd9\\x86 \\xd8\\xb3\\xd8\\xb1\\xdb\\x8c\\xd8\\xa7\\xd9\\x84\\xd8\\xa7 \\xd8\\xb1\\xd9\\x88 \\xda\\xa9\\xd9\\x87 \\xd9\\x87\\xd8\\xb1 \\xd8\\xae\\xd8\\xb1\\xdb\\x8c \\xd8\\xa7\\xd8\\xb3\\xd9\\x85\\xd8\\xb4\\xd9\\x88 \\xd8\\xb4\\xd9\\x86\\xdb\\x8c\\xd8\\xaf\\xd9\\x87 \\xd9\\xbe\\xdb\\x8c\\xd8\\xb4\\xd9\\x86\\xd9\\x87\\xd8\\xa7\\xd8\\xaf \\xd9\\x85\\xdb\\x8c\\xd8\\xaf\\xd9\\x86. \\xd9\\x84\\xd8\\xa7\\xd8\\xb3\\xd8\\xaa\\xd8\\x8c \\xd9\\x81\\xd8\\xb1\\xd8\\xa7\\xd8\\xb1 \\xd8\\xa7\\xd8\\xb2 \\xd8\\xb2\\xd9\\x86\\xd8\\xaf\\xd8\\xa7\\xd9\\x86\\xd8\\x8c \\xd8\\xa8\\xd8\\xb1\\xda\\xa9\\xdb\\x8c\\xd9\\x86\\xda\\xaf \\xd8\\xa8\\xd8\\xaf\\xd8\\x8c \\xda\\xaf\\xd8\\xa7\\xd8\\xaa\'\n\n2019-07-11 16:39:40,b\'@nik_yousefi \\xd9\\x81\\xd8\\xb5\\xd9\\x84 \\xd8\\xa2\\xd8\\xae\\xd8\\xb1\\xd9\\x88 \\xd9\\x86\\xd9\\x88\\xdb\\x8c\\xd8\\xb3\\xd9\\x86\\xd8\\xaf\\xd9\\x87 \\xd9\\x87\\xd8\\xa7\\xdb\\x8c \\xda\\xaf\\xd8\\xa7\\xd8\\xaa \\xd9\\x86\\xd9\\x88\\xd8\\xb4\\xd8\\xaa\\xd9\\x87 \\xd8\\xa8\\xd9\\x88\\xd8\\xaf\\xd9\\x86 \\xd9\\x81\\xda\\xa9\\xd8\\xb1 \\xda\\xa9\\xd9\\x86\\xd9\\x85 :))\'\n\n2019-07-11 15:54:40,b\'@charbsho \\xd9\\x81\\xda\\xa9\\xd8\\xb1 \\xda\\xa9\\xd8\\xb1\\xd8\\xaf\\xd9\\x85 \\xd8\\xb9\\xda\\xa9\\xd8\\xb3\\xdb\\x8c \\xda\\x86\\xdb\\x8c\\xd8\\xb2\\xdb\\x8c \\xd8\\xa7\\xd8\\xb2 \\xda\\xaf\\xd8\\xa7\\xd8\\xaa \\xda\\xaf\\xd8\\xb0\\xd8\\xa7\\xd8\\xb4\\xd8\\xaa\\xd9\\x86 \\xda\\xa9\\xd9\\x87 \\xd8\\xb3\\xd8\\xb1 \\xd9\\x86\\xd8\\xaf \\xd8\\xa7\\xd8\\xb3\\xd8\\xaa\\xd8\\xa7\\xd8\\xb1\\xda\\xa9\\xd9\\x88 \\xd8\\xb2\\xd8\\xaf\\xd9\\x86=))))))))\nRun Code Online (Sandbox Code Playgroud)\n\n有人可以告诉我如何去做吗?
\n你可以这样转换它:
\nstring = b'@StingTIcon \\xd8\\xa8\\xd8\\xa7\\xd8\\xb2 \\xd8\\xa7\\xdb\\x8c\\xd9\\x86 \\xd8\\xae\\xd9\\x88\\xd8\\xa8\\xd9\\x87 =)))))) \\xd8\\xa7\\xd9\\x88\\xd9\\x86\\xd8\\xa7\\xdb\\x8c\\xdb\\x8c \\xda\\xa9\\xd9\\x87 \\xd9\\x85\\xdb\\x8c\\xda\\xaf\\xd9\\x85 \\xd8\\xaa\\xd8\\xa7\\xd8\\xa8\\xd9\\x84\\xd9\\x88\\xd8\\xaa\\xd8\\xb1\\xdb\\x8c\\xd9\\x86 \\xd8\\xb3\\xd8\\xb1\\xdb\\x8c\\xd8\\xa7\\xd9\\x84\\xd8\\xa7 \\xd8\\xb1\\xd9\\x88 \\xda\\xa9\\xd9\\x87 \\xd9\\x87\\xd8\\xb1 \\xd8\\xae\\xd8\\xb1\\xdb\\x8c \\xd8\\xa7\\xd8\\xb3\\xd9\\x85\\xd8\\xb4\\xd9\\x88 \\xd8\\xb4\\xd9\\x86\\xdb\\x8c\\xd8\\xaf\\xd9\\x87 \\xd9\\xbe\\xdb\\x8c\\xd8\\xb4\\xd9\\x86\\xd9\\x87\\xd8\\xa7\\xd8\\xaf \\xd9\\x85\\xdb\\x8c\\xd8\\xaf\\xd9\\x86. \\xd9\\x84\\xd8\\xa7\\xd8\\xb3\\xd8\\xaa\\xd8\\x8c \\xd9\\x81\\xd8\\xb1\\xd8\\xa7\\xd8\\xb1 \\xd8\\xa7\\xd8\\xb2 \\xd8\\xb2\\xd9\\x86\\xd8\\xaf\\xd8\\xa7\\xd9\\x86\\xd8\\x8c \\xd8\\xa8\\xd8\\xb1\\xda\\xa9\\xdb\\x8c\\xd9\\x86\\xda\\xaf \\xd8\\xa8\\xd8\\xaf\\xd8\\x8c \\xda\\xaf\\xd8\\xa7\\xd8\\xaa'\nresult = string.decode('unicode-escape').encode('latin1').decode('utf-8')\nRun Code Online (Sandbox Code Playgroud)\n输出:
\n@StingTIcon \xd8\xa8\xd8\xa7\xd8\xb2 \xd8\xa7\xdb\x8c\xd9\x86 \xd8\xae\xd9\x88\xd8\xa8\xd9\x87 =)))))) \xd8\xa7\xd9\x88\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xda\xa9\xd9\x87 \xd9\x85\xdb\x8c\xda\xaf\xd9\x85 \xd8\xaa\xd8\xa7\xd8\xa8\xd9\x84\xd9\x88\xd8\xaa\xd8\xb1\xdb\x8c\xd9\x86 \xd8\xb3\xd8\xb1\xdb\x8c\xd8\xa7\xd9\x84\xd8\xa7 \xd8\xb1\xd9\x88 \xda\xa9\xd9\x87 \xd9\x87\xd8\xb1 \xd8\xae\xd8\xb1\xdb\x8c \xd8\xa7\xd8\xb3\xd9\x85\xd8\xb4\xd9\x88 \xd8\xb4\xd9\x86\xdb\x8c\xd8\xaf\xd9\x87 \xd9\xbe\xdb\x8c\xd8\xb4\xd9\x86\xd9\x87\xd8\xa7\xd8\xaf \xd9\x85\xdb\x8c\xd8\xaf\xd9\x86. \xd9\x84\xd8\xa7\xd8\xb3\xd8\xaa\xd8\x8c \xd9\x81\xd8\xb1\xd8\xa7\xd8\xb1 \xd8\xa7\xd8\xb2 \xd8\xb2\xd9\x86\xd8\xaf\xd8\xa7\xd9\x86\xd8\x8c \xd8\xa8\xd8\xb1\xda\xa9\xdb\x8c\xd9\x86\xda\xaf \xd8\xa8\xd8\xaf\xd8\x8c \xda\xaf\xd8\xa7\xd8\xaa\nRun Code Online (Sandbox Code Playgroud)\n
| 归档时间: |
|
| 查看次数: |
2186 次 |
| 最近记录: |