小编mid*_*dhu的帖子

Java或Python分布式计算工作(学生预算)?

我有一个大型数据集(约40G),我想在实验室中的几台计算机上使用一些NLP(很大程度上令人尴尬的并行),我没有 root权限,只有1G的用户空间.我用hadoop进行了实验,但当然这已经死了 - 数据存储在外部usb硬盘上,由于1G用户空间上限,我无法将其加载到dfs.我一直在研究几个基于python的选项(因为如果我可以帮助它,我宁愿使用NLTK而不是Java的lingpipe),而且似乎分布式计算选项看起来像:

  • IPython的
  • 迪斯科

在我的hadoop经验之后,我正在努力确保我尝试做出明智的选择 - 任何可能更合适的帮助都将非常感激.

亚马逊的EC2等不是一个选项,因为我没有预算.

python java hadoop nlp nltk

5
推荐指数
1
解决办法
319
查看次数

标签 统计

hadoop ×1

java ×1

nlp ×1

nltk ×1

python ×1