如何用R分析维基百科文章的数据库?

Tal*_*ili 3 mysql sql database wikipedia r

这是一个"大"的问题,我不知道如何开始,所以我希望你们中的一些人可以给我一个方向.如果这不是一个"好"的问题,我将以道歉的方式关闭该主题.

我希望浏览维基百科的数据库(比如英文版),并做统计.例如,我感兴趣的是维基百科在每个时间点都有多少活跃的编辑器(应该被定义)(比如说在过去的两年里).

我不知道如何构建这样的数据库,如何访问它,如何知道它拥有哪些类型的数据等等.所以我的问题是:

  1. 我需要哪些工具(基本R除外)?MySQL在我的电脑上?RODBC数据库连接?
  2. 你如何开始规划这样一个项目?

小智 8

你想从这里开始:http://en.wikipedia.org/wiki/Wikipedia: Database_download

这将带您到这里:http: //download.wikimedia.org/enwiki/20100312/

你可能想要的文件是:

# 2010-03-17 04:33:50 done Log events to all pages.
    * This contains the log of actions performed on pages.
    * pages-logging.xml.gz 1.0 GB
Run Code Online (Sandbox Code Playgroud)

http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz

然后,您将xml导入MySQL.生成每天,每周,每年等用户的直方图不需要R.您可以使用单个MySQL查询来完成此操作.就像是:

select DAYOFYEAR(wiki_edit_timestamp), count(*)
from page_logs
group by DAYOFYEAR(wiki_edit_timestamp)
order by DAYOFYEAR(wiki_edit_timestamp);
Run Code Online (Sandbox Code Playgroud)

等等

(我不确定他们的实际架构是什么,但它会是那样的.)

毫无疑问,你会遇到问题,但你也会学到很多东西.祝好运!


Kar*_* W. 5

你可以