Sat*_*uha 3 scalability machine-learning bigdata vowpalwabbit logistic-regression
我们从搜索引擎查询日志数据中提取了特征,并且特征文件(根据Vowpal Wabbit的输入格式)达到90.5 GB.这种巨大尺寸的原因是我们的功能构造中必要的冗余.Vowpal Wabbit声称能够在几个小时内处理数据TB.除此之外,VW使用哈希函数,几乎不需要RAM.但是当我们使用VW对我们的数据进行逻辑回归时,在几分钟内,它会耗尽所有RAM然后停止.这是我们使用的命令 -
vw -d train_output --power_t 1 --cache_file train.cache -f data.model
--compressed --loss_function logistic --adaptive --invariant
--l2 0.8e-8 --invert_hash train.model
Run Code Online (Sandbox Code Playgroud)
train_output是我们想要训练VW的输入文件,train.model是训练后获得的预期模型
欢迎任何帮助!
我发现--invert_hash选择成本极高; 尝试没有该选项运行.您还可以尝试启用--l1正则化选项以减少模型中的系数数量.
您的模型中有多少功能?每行有多少个功能?