mid*_*dhu 5 python java hadoop nlp nltk
我有一个大型数据集(约40G),我想在实验室中的几台计算机上使用一些NLP(很大程度上令人尴尬的并行),我没有 root权限,只有1G的用户空间.我用hadoop进行了实验,但当然这已经死了 - 数据存储在外部usb硬盘上,由于1G用户空间上限,我无法将其加载到dfs.我一直在研究几个基于python的选项(因为如果我可以帮助它,我宁愿使用NLTK而不是Java的lingpipe),而且似乎分布式计算选项看起来像:
在我的hadoop经验之后,我正在努力确保我尝试做出明智的选择 - 任何可能更合适的帮助都将非常感激.
亚马逊的EC2等不是一个选项,因为我没有预算.
没有实际答案;我本想将此作为评论,但在这个网站上,如果您仍然是菜鸟,您就被迫回答
如果它真的像那样并行,而且只有几台计算机,你能不能提前手动分割数据集吗?
您是否确认不会有防火墙或类似的东西阻止您使用类似的东西?
你可能只有 1GB 的用户空间,但是,如果是 linux,那么 /tmp 呢?(如果是 Windows,那么 %temp% 呢?)