小智 7
请尝试以下三个数据集:
包含约97百万条推文:
ed note:由于Twitter要求删除它,上面链接的数据集不再可用.
包含4700万用户的用户图:
http://an.kaist.ac.kr/traces/WWW2010.html
以下数据集包含网络和推文,但是数据是通过雪球采样或其他东西收集的,因此朋友网络不统一.它有大约1000万条推文,您可以将研究人员邮寄给更多数据.
http://www.public.asu.edu/~mdechoud/datasets.html
虽然看看数据分发的许可证.
希望这会有所帮助,您也能告诉我这个数据集正在计划什么样的工作吗?我有几个hadoop/pig脚本可用于数据集
从facebook上提取了1亿页:http: //it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6
我不知道它们包含什么,但你可以看看,似乎很容易在种子网站上找到它.
你也可以使用facebook API,但是如果你想要一个足够大的数据集,你必须要求facebook有权访问它.它包含指向朋友,喜欢,群组的链接......
归档时间: |
|
查看次数: |
22327 次 |
最近记录: |