GET请求返回403状态码(解析)

use*_*ser 3 go web-scraping

我正在尝试获取状态为 200 的https://www.avito.ru/moskva页面的正确正文。

req, err := http.NewRequest("GET", "https://www.avito.ru/moskva", nil)
req.Header.Add("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:81.0) Gecko/20100101 Firefox/81.0")
req.Header.Add("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8")

client := &http.Client{}
res, err := client.Do(req)
if err != nil {
    panic(err)
}
defer res.Body.Close()

fmt.Println(res.Status)
printBody(res) // prints body of page
Run Code Online (Sandbox Code Playgroud)

输出:

403 Forbidden
"security stub from site (says that my ip banned)"
Run Code Online (Sandbox Code Playgroud)

我可以在浏览器中打开此页面,而不会出现任何警告。

我用 python 成功获取了 body:

import requests

session = requests.Session()
session.headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:81.0) Gecko/20100101 Firefox/81.0',
    'Accept-Language': 'ru',
}
print(session.get("https://www.avito.ru/moskva").text)
Run Code Online (Sandbox Code Playgroud)

即使不添加任何标头,curl 也能很好地工作:

curl https://www.avito.ru/moskva
Run Code Online (Sandbox Code Playgroud)

Ber*_*tel 6

看来问题是使用的 TLS 版本,将最大版本设置为 1.2tls.VersionTLS12似乎可行:

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
    "crypto/tls"
)

func main() {
    tr := &http.Transport{
        TLSClientConfig: &tls.Config{
            MaxVersion: tls.VersionTLS12,
        },
    }
    client := &http.Client{Transport: tr}
    req, err := http.NewRequest("GET", "https://www.avito.ru/moskva", nil)
    resp, err := client.Do(req)
    if err != nil {
        fmt.Println(err)
    }
    body, err := ioutil.ReadAll(resp.Body)
    bodyString := string(body)
    fmt.Print(bodyString)
}
Run Code Online (Sandbox Code Playgroud)

如果您切换到tls.VersionTLS13它,则会给出 403 状态代码,因此我猜测该版本是该主机默认协商的。在 Chrome 上,您可以看到它正在使用 tls1.3 :

在此输入图像描述

但我不确定为什么它会为 tls1.3 和 tls1.2 返回不同的结果

  • 你救了我的屁股兄弟。上帝祝福你。 (3认同)