Tal*_*ili 3 mysql sql database wikipedia r
这是一个"大"的问题,我不知道如何开始,所以我希望你们中的一些人可以给我一个方向.如果这不是一个"好"的问题,我将以道歉的方式关闭该主题.
我希望浏览维基百科的数据库(比如英文版),并做统计.例如,我感兴趣的是维基百科在每个时间点都有多少活跃的编辑器(应该被定义)(比如说在过去的两年里).
我不知道如何构建这样的数据库,如何访问它,如何知道它拥有哪些类型的数据等等.所以我的问题是:
小智 8
你想从这里开始:http://en.wikipedia.org/wiki/Wikipedia: Database_download
这将带您到这里:http: //download.wikimedia.org/enwiki/20100312/
你可能想要的文件是:
# 2010-03-17 04:33:50 done Log events to all pages.
* This contains the log of actions performed on pages.
* pages-logging.xml.gz 1.0 GB
Run Code Online (Sandbox Code Playgroud)
http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz
然后,您将xml导入MySQL.生成每天,每周,每年等用户的直方图不需要R.您可以使用单个MySQL查询来完成此操作.就像是:
select DAYOFYEAR(wiki_edit_timestamp), count(*)
from page_logs
group by DAYOFYEAR(wiki_edit_timestamp)
order by DAYOFYEAR(wiki_edit_timestamp);
Run Code Online (Sandbox Code Playgroud)
等等
(我不确定他们的实际架构是什么,但它会是那样的.)
毫无疑问,你会遇到问题,但你也会学到很多东西.祝好运!
你可以