Google Analytics - 获取原始数据日志

act*_*ner 16 hadoop google-analytics google-api raw-data universal-analytics

我有一个将数据发送到Google Analytics的应用.我有兴趣在Hadoop集群上访问和存储这些数据.我猜这个原始数据将以日志的形式出现.特别是,我希望看到user_id,用户进行的搜索以及他/她决定在应用上支付的搜索选项.

我怎样才能做到这一点?我是GA的新手,我不是那个为应用程序设置GA的人.我只是想看看是否有办法可以访问这些原始数据.

想补充说我不能使用Big Query,因为我们无法访问它.设置GA的人对升级到Universal Analytics不感兴趣.

任何帮助/想法/建议表示赞赏.

谢谢!

DaI*_*mTo 15

没有办法获取日志,但..

谷歌Analytics(分析)API将让您提取您的数据在系统之外.

您可以做的事情有限:

  1. 每个请求限制为7个维度和10个指标.
  2. 每个配置文件每天还有10k个请求的配额(查看).
  3. 您正在谈论的一些信息不可用.除非Google Analytics帐户设置正确.
  4. 数据仍将以这种或那种方式聚合.API中可用的最小时间单位是分钟,因此您将无法获得带有时间戳的原始数据.

值得注意的是,专业的Google Analytics客户可以将原始数据从GA导出到Big Query.从BigQuery导出数据是免费的,但存储和查询处理是根据使用情况定价的.

高级分析以合理的价格获得150,000美元的固定年费


小智 5

由于我们应该回答原始问题,因此除了复制服务器调用系统之外,没有其他方法可以获取实际的原始Google Analytics(分析)日志。

换句话说,您需要使用analytics.js脚本的修改后的副本指向可以收集服务器调用的托管网络服务器。

长话短说,您希望您的网站将访问量捕获到 http://www.yourdatacollectionserver.com/collect?v=1&t=pageview [...], 而不是 http://www.google-analytics.com/collect? v = 1&t =综合浏览量[...]

使用标记管理器(例如Google的GTM)以及常规的Google Analytics(分析)标记,可以轻松地进行部署。

这将有效地在Web服务器中创建日志条目,您可以使用ETL或Snowplow或Splunk或喜欢的Python / perl / Ruby文本解析引擎对其进行处理。

然后由您决定将实际的原始日志处理为可管理的内容。在您问之前,这不是追溯性的。