我正在尝试教自己一些基本的网络抓取.使用Python的请求模块,我能够获取各种网站的HTML,直到我尝试这个:
>>> r = requests.get('http://www.wrcc.dri.edu/WRCCWrappers.py?sodxtrmts+028815+por+por+pcpn+none+mave+5+01+F')
Run Code Online (Sandbox Code Playgroud)
而不是作为此页面源的基本html,我得到:
>>> r.text
'\x1f\ufffd\x08\x00\x00\x00\x00\x00\x00\x03\ufffd]o\u06f8\x12\ufffd\ufffd\ufffd+\ufffd]...
>>> r.content
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xed\x9d]o\xdb\xb8\x12\x86\xef\xfb+\x88]\x14h...
Run Code Online (Sandbox Code Playgroud)
我已经尝试了很多get/post的组合,我可以从文档和SO以及其他示例中猜出每种语法.我不明白我上面看到的是什么,无法把它变成我能读到的任何东西,也无法弄清楚如何得到我真正想要的东西.我的问题是,如何获取上述页面的html?