pat*_*016 3 unicode-string python-3.x
我正在使用 Python 3.6 进行一些抓取工作,并按照以下格式检索字符串中的一些 URL:
someURL = 'http:\u002F\u002Fsomewebsite.com\u002Fsomefile.jpg'
Run Code Online (Sandbox Code Playgroud)
我一直在尝试转换这些字符串中的 Unicode 反斜杠 (\u002F) 以使用 URL(使用正则表达式方法、字符串上的 encode() 等),但无济于事。该字符串仍保留 Unicode 反斜杠,例如,如果我将其传递给 Requests 的 get(),则会收到以下错误消息:
InvalidURL: Failed to parse: http:\u002F\u002Fsomewebsite.com\u002Fsomefile.jpg"
Run Code Online (Sandbox Code Playgroud)
我在这个论坛和其他人中搜索了解决方案,但似乎无法解决它。我相信这很简单......
codecs.decode与名为 的编码一起使用'unicode-escape':
import codecs
print(codecs.decode(someURL, 'unicode-escape'))
# prints 'http://somewebsite.com/somefile.jpg'
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1340 次 |
| 最近记录: |