Sun*_*dar 40 resources hadoop opendata
你知道任何大型数据集来试验免费/低成本的Hadoop吗?任何相关的指针/链接都表示赞赏.
Prefernce:
至少一GB的数据.
Web服务器的生产日志数据.
到目前为止我发现的很少:
我们也可以运行自己的爬虫来收集来自维基百科等网站的数据吗?关于如何做到这一点的任何指针也受到赞赏.
它不是日志文件,但也许您可以使用OpenStreetMap中的行星文件:http://wiki.openstreetmap.org/wiki/Planet.osm
CC许可证,大约160 GB(未打包)
每个大陆也有较小的文件:http://wiki.openstreetmap.org/wiki/World
| 归档时间: |
|
| 查看次数: |
40691 次 |
| 最近记录: |