Mallet主题建模

fay*_*yaz 6 java nlp machine-learning mallet

我一直在使用mallet来推断包含100,000行(大约34 MB的mallet格式)的文本文件的主题.但是现在我需要在包含一百万行(大约180MB)的文件上运行它,并且我得到一个java.lang.outofmemory异常.有没有办法将文件拆分成较小的文件并为所有文件中存在的数据构建模型?提前致谢

met*_*dos 6

bin/mallet.bat中增加此行的值:

set MALLET_MEMORY=1G
Run Code Online (Sandbox Code Playgroud)


yur*_*ura 1

我不确定 Mallet 对大数据的可扩展性,但项目http://dragon.ischool.drexel.edu/可以将其数据存储在磁盘支持的持久性中,因此可以扩展到无限的语料库大小(当然性能较低)