hir*_*iro 4 distributed hadoop scalability mapreduce weed-fs
我的工作是为静态图像/视频文件设计分布式系统.数据大小约为数十TB.它主要用于HTTP访问(因此不对数据进行处理;或者只进行简单的处理,例如调整大小 - 但这并不重要,因为它可以直接在应用程序中完成).
为了更清楚一点,它是一个系统:
我正在考虑:
本机网络文件系统:但似乎不可行,因为数据无法放入一台机器.
Hadoop文件系统.之前我使用过Hadoop mapreduce,但我没有使用Hadoop作为HTTP请求的静态文件存储库的经验.所以我不知道它是否可能或是否是推荐的方式.
MogileFS.这似乎很有希望,但我觉得使用MySQL来管理本地文件(在一台机器上)会产生太多的开销.
有什么建议吗?
我是Weed-FS的作者.根据您的要求,WeedFS是理想的选择.Hadoop无法处理很多小文件,除了你的原因,每个文件都需要在master中有一个条目.如果文件数量很大,则hdfs主节点无法扩展.
使用最新的Golang版本编译时,Weed-FS的速度越来越快.
最近在Weed-FS上做了许多新的改进.现在,您可以使用内置的上传工具轻松进行测试和比较.这个文件在目录下递归上传所有文件.
weed upload -dir=/some/directory
Run Code Online (Sandbox Code Playgroud)
现在您可以通过"du -k/some/directory"来查看磁盘使用情况,并通过"ls -l/your/weed/volume/directory"来查看Weed-FS磁盘使用情况.
我想你需要复制数据中心,机架识别等等.他们现在在!