Twitter(社交网络)数据集

den*_*iss 15 twitter hadoop facebook dataset

我正在为我的项目寻找推特或其他社交网站数据集.我目前有CAW 2.0 twitter数据集,但它只包含用户的推文.我想要一个显示朋友,追随者等数量的数据.

它不一定是推特,但我更喜欢推特或脸书.我已经尝试了infochimps,但显然该文件不再可供Twitter下载.

有人可以给我很好的网站来找到这种数据集.我要将数据集提供给hadoop.

小智 7

请尝试以下三个数据集:

包含约97百万条推文:

http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

ed note:由于Twitter要求删除它,上面链接的数据集不再可用.

包含4700万用户的用户图:

http://an.kaist.ac.kr/traces/WWW2010.html

以下数据集包含网络和推文,但是数据是通过雪球采样或其他东西收集的,因此朋友网络不统一.它有大约1000万条推文,您可以将研究人员邮寄给更多数据.

http://www.public.asu.edu/~mdechoud/datasets.html

虽然看看数据分发的许可证.

希望这会有所帮助,您也能告诉我这个数据集正在计划什么样的工作吗?我有几个hadoop/pig脚本可用于数据集


Sch*_*ron 5

从facebook上提取了1亿页:http: //it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

我不知道它们包含什么,但你可以看看,似乎很容易在种子网站上找到它.

你也可以使用facebook API,但是如果你想要一个足够大的数据集,你必须要求facebook有权访问它.它包含指向朋友,喜欢,群组的链接......