aks*_*ayb 10 python nltk opennlp
我在python nltk中开发了几种用于聚类,数据抽象等的算法.现在,问题是,我将在风险投资之前呈现大规模.NLTK有自己的优势,比如快速开发等.但是当我在开始时选择时,这对我来说很有意义.现在我已经足够成熟,并且发现它有一些局限性,比如缺乏可扩展性.对Mahout进行了一些研究,但这也是针对集群/分类和搭配的.打开NLP是一个选项,但我不确定我能用多长时间.对于高规模的nlp有什么好的吗?
请注意 - 这个问题与我的旧问题无关 - 如何提高NLTK的性能?备择方案?.我已经完全在生产Web应用程序上阅读了NLTK.
NLTK确实是一个很好的学习平台,但并不是为了稳健地服务数百万客户而设计的。
您可以通过两种不同的方式解决可扩展性问题:
这意味着重新思考你的算法。需要良好的数学背景和对算法的深入理解。也许您甚至会替换算法,因为执行时间与工作量关系不大。
因此,就实现您的想法而言,这可能是最困难(甚至可能是不可能)的解决方案,具体取决于您的技能。对于部署和未来的好处来说,这是迄今为止最简单的解决方案。
可扩展性可以有不同的含义:
可扩展性有不同的数量级:您想要扩展 10 倍、100 倍、1000 倍……吗?
有多种方法可以克服可扩展性问题:
无论可扩展性的类型如何,也无论您使用什么方法来克服它,都请进行负载测试以了解您可以处理什么。由于您无法立即负担得起所有硬件,因此可以采用不同的方法对扩展的基础设施进行负载测试:
祝你好运!