Pytrends 趋势结果与手动下载的数据不相似

Question

Pytrends 趋势结果与手动下载的数据不相似

我pytrends用来自动csv从谷歌趋势下载数据。我使用的代码如下。在这种情况下，我正在下载从 2008 年到现在的每月谷歌趋势数据。

from pytrends.request import TrendReq
from urllib.parse import unquote
from dateutil.relativedelta import relativedelta
import datetime
import pytrends

google_username = "xxxxx@gmail.com"
google_password = "xxxxx"

search_term = unquote('%2Fm%2F07gyp7')
google_trend = TrendReq(google_username, google_password, custom_useragent='Pytrends'  )
google_trend_payload = {'gprop' : 'news' , 'q': search_term}
trendresult = TrendReq.trend(google_trend_payload, return_type = 'dataframe')
print(trendresult)

Run Code Online (Sandbox Code Playgroud)

google 网站前 5 个月的结果与 pytrends 的结果对比：

Date          Pytrends data          Manual csv data
2008-01       21.0                   28.0
2008-02       16.0                   19.0
2008-03       16.0                   21.0
2008-04       15.0                   18.0
2008-05       22.0                   31.0

Run Code Online (Sandbox Code Playgroud)

有谁知道原因吗？谢谢你。

Answer 1

小智 3

我遇到了同样的问题，所以我必须在项目期间手动下载。现在，我已经知道原因了。这是google的采样方法。谷歌每天都会返回不同的趋势系列。想象一下，谷歌有 1000 万台服务器，每天，对于每个查询，它只对其服务器中的 1 万台进行采样。因此，为了获得一致的序列，您可以取 30（甚至 50）次并取平均值。对于值不太小的系列（最小值可能超过 30），标准偏差约为 5%（可接受）。

手动下载和gtrend下载之间的差异可能与它们提取数据的方法不同有关。gtrend 下载https://www.google.com/trends/fetchContent类型的 url .... 我现在知道如何处理手动下载，但我确实知道还有另一种提取数据的方法，例如https： //www.google.com/trends/trendsReport .. . 后者每周返回所有内容的系列（相当丰富）。

目前似乎存在配额限制问题。

归档时间：	9 年，1 月前
查看次数：	1416 次
最近记录：	8 年，10 月前