Vowpal Wabbit可以处理数据量~90 GB吗?

Sat*_*uha 3 scalability machine-learning bigdata vowpalwabbit logistic-regression

我们从搜索引擎查询日志数据中提取了特征,并且特征文件(根据Vowpal Wabbit的输入格式)达到90.5 GB.这种巨大尺寸的原因是我们的功能构造中必要的冗余.Vowpal Wabbit声称能够在几个小时内处理数据TB.除此之外,VW使用哈希函数,几乎不需要RAM.但是当我们使用VW对我们的数据进行逻辑回归时,在几分钟内,它会耗尽所有RAM然后停止.这是我们使用的命令 -

vw -d train_output --power_t 1  --cache_file train.cache -f data.model 
--compressed --loss_function logistic --adaptive --invariant 
--l2 0.8e-8 --invert_hash train.model
Run Code Online (Sandbox Code Playgroud)

train_output是我们想要训练VW的输入文件,train.model是训练后获得的预期模型

欢迎任何帮助!

Zac*_*ach 6

我发现--invert_hash选择成本极高; 尝试没有该选项运行.您还可以尝试启用--l1正则化选项以减少模型中的系数数量.

您的模型中有多少功能?每行有多少个功能?

  • 我们从命令中删除了--invert_hash选项,它运行正常.培训在半小时内完成.万分感谢!我们总共有几百万个功能,每行大约有15个功能.这些特征已经表明了我们数据的稀疏性. (2认同)