我很快就会开始一个新的项目,我将要做很多文本处理任务,比如搜索,分类/分类,聚类等等.
将会有大量需要处理的文件; 可能是数百万的文件.在初始处理之后,它还必须能够每天更新多个新文档.
我可以使用Python来做这件事,还是Python太慢了?最好使用Java吗?
如果可能的话,我更喜欢Python,因为这是我最近一直在使用的.另外,我会更快地完成编码部分.但这一切都取决于Python的速度.我已经使用Python进行了一些小规模的文本处理任务,只有几千个文档,但我不确定它的扩展程度.
python java nlp information-retrieval text-mining
information-retrieval ×1
java ×1
nlp ×1
python ×1
text-mining ×1