Java或Python分布式计算工作(学生预算)？

Question

Java或Python分布式计算工作(学生预算)？

我有一个大型数据集(约40G),我想在实验室中的几台计算机上使用一些NLP(很大程度上令人尴尬的并行),我没有 root权限,只有1G的用户空间.我用hadoop进行了实验,但当然这已经死了 - 数据存储在外部usb硬盘上,由于1G用户空间上限,我无法将其加载到dfs.我一直在研究几个基于python的选项(因为如果我可以帮助它,我宁愿使用NLTK而不是Java的lingpipe),而且似乎分布式计算选项看起来像:

IPython的
迪斯科

在我的hadoop经验之后,我正在努力确保我尝试做出明智的选择 - 任何可能更合适的帮助都将非常感激.

亚马逊的EC2等不是一个选项,因为我没有预算.

Answer 1

fry*_*ter 1

没有实际答案；我本想将此作为评论，但在这个网站上，如果您仍然是菜鸟，您就被迫回答

如果它真的像那样并行，而且只有几台计算机，你能不能提前手动分割数据集吗？

您是否确认不会有防火墙或类似的东西阻止您使用类似的东西？

你可能只有 1GB 的用户空间，但是，如果是 linux，那么 /tmp 呢？（如果是 Windows，那么 %temp% 呢？）

归档时间：	15 年，9 月前
查看次数：	319 次
最近记录：	15 年，9 月前