Man*_*edi 2 python web-crawler python-2.7 python-requests
我使用该requests模块和 Python 2.7 来构建一个基本的网络爬虫。
source_code = requests.get(url)
plain_text = source_code.text
Run Code Online (Sandbox Code Playgroud)
现在,在上面的代码行中,我将指定 URL 的源代码和其他元数据存储在变量内source_code。现在,在 中source_code.text,属性到底是什么.text?它不是一个函数。我在文档中找不到任何解释其起源或功能的内容.text。
requests.get()返回一个Response对象;它是具有该.text属性的对象;它不是URL的“源代码”,它是一个对象,可让您访问响应的源代码(正文)以及其他信息。该Response.text属性为您提供响应的正文,解码为unicode.
请参阅快速入门文档的响应内容部分:
当您发出请求时,Requests 会根据 HTTP 标头对响应的编码进行有根据的猜测。当您访问 时,将使用 Requests 猜测的文本编码
r.text。
更多信息可以在 API 文档中找到,请参阅Response.text条目:
响应内容,采用 unicode。
如果 Response.encoding 为 None,则将使用 猜测编码
chardet。响应内容的编码仅根据 HTTP 标头确定,严格遵循 RFC 2616。如果您可以利用非 HTTP 知识来更好地猜测编码,则应该
r.encoding在访问此属性之前进行适当的设置。
您还可以用于Response.content访问未解码的响应正文(作为原始字节)。