相关疑难解决方法(0)

HTTP标头值允许哪些字符?

在研究了HTTP/1.1标准之后,特别是第31页和相关的我得出结论,任何8位八位字节都可以出现在HTTP头值中.即任何带有[0,255]范围代码的字符.

然而我试过的HTTP服务器拒绝接受代码> 127(或大多数US-ASCII不可打印的字符)的任何东西.

这里是标准中使用的语法摘录:

message-header = field-name ":" [ field-value ]
field-name     = token
field-value    = *( field-content | LWS )
field-content  = <the OCTETs making up the field-value and consisting of
                  either *TEXT or combinations of token, separators, and
                  quoted-string>

CR             = <US-ASCII CR, carriage return (13)>
LF             = <US-ASCII LF, linefeed (10)>
SP             = <US-ASCII SP, space (32)>
HT             = <US-ASCII HT, horizontal-tab (9)>
CRLF           = CR LF
LWS            = [CRLF] 1*( SP | HT ) …
Run Code Online (Sandbox Code Playgroud)

http http-headers

12
推荐指数
2
解决办法
2万
查看次数

GET请求返回403状态码(解析)

我正在尝试获取状态为 200 的https://www.avito.ru/moskva页面的正确正文。

req, err := http.NewRequest("GET", "https://www.avito.ru/moskva", nil)
req.Header.Add("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:81.0) Gecko/20100101 Firefox/81.0")
req.Header.Add("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8")

client := &http.Client{}
res, err := client.Do(req)
if err != nil {
    panic(err)
}
defer res.Body.Close()

fmt.Println(res.Status)
printBody(res) // prints body of page
Run Code Online (Sandbox Code Playgroud)

输出:

403 Forbidden
"security stub from site (says that my ip banned)"
Run Code Online (Sandbox Code Playgroud)

我可以在浏览器中打开此页面,而不会出现任何警告。

我用 python 成功获取了 body:

import requests

session = requests.Session()
session.headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:81.0) Gecko/20100101 Firefox/81.0',
    'Accept-Language': …
Run Code Online (Sandbox Code Playgroud)

go web-scraping

3
推荐指数
1
解决办法
1525
查看次数

标签 统计

go ×1

http ×1

http-headers ×1

web-scraping ×1