维基百科浏览量分析

Pio*_*icz 3 wikipedia analysis pageviews

我一直受到维基百科浏览量分析的挑战。对我来说,这是第一个拥有如此大量数据的项目,我有点迷茫。当我从链接下载文件并解压缩时,我可以看到它具有类似表格的结构,其中的行如下所示:

1   |  2                             |3|4

en.m The_Beatles_in_the_United_States 2 0
Run Code Online (Sandbox Code Playgroud)

我很难找出每列中到底可以找到什么。我的猜测:

语言版本和附加信息(.m = 手机?)

文章名称

我对最后两列的最大担忧。最后一个只有“0”值,我不知道它代表什么。我会假设第三个显示观看次数,但我不确定。

如果有人能帮助我了解每列中到底可以找到什么或推荐一些关于这个主题的阅读,我将不胜感激。谢谢!

Pio*_*icz 5

经过更多的时间,我终于找到了解决方案。我发布这个以防将来有人遇到同样的问题。维基百科解释了可以在数据库中找到的内容。这些解释很难找到,但您可以在此处此处访问主题。

基于此,您可以看到行具有以下结构:

  • 域代码
  • 页面标题
  • count_views
  • total_response_size(不再维护)

每列的一些解释:

第 1 列:

请求的域名,缩写。(...) Domain_code 现在也可以是移动和零域名的缩写,在这种情况下,.m 或 .zero 作为域名的第二部分插入(就像使用完整域名一样)。例如,“en.mv”代表“en.m.wikiversity.org”。

第 2 栏:

对于页面级文件,它在请求 Url(例如:Main_Page Berlin)中包含 /wiki/ 之后未规范化部分的标题。对于项目级文件,它是 - 。

第 3 栏:

此页面在相应小时内被查看的次数。

第 4 栏:

相应小时内对此页面的请求引起的总响应大小。如果我理解正确,响应大小因准确性低而停止。这就是为什么只有0。pagecounts 和 projectcounts 文件还包括其各自聚合级别的总响应字节大小,但由于它不是很准确,因此已从 pageviews 和 projectviews 文件中删除。

希望有人觉得它有用。