Kal*_*lEl 4 hadoop mapreduce mahout
我刚刚开始与Mahout合作,有一件让我困惑的事情是缺乏线性回归.即使是更加困难的逻辑回归,在某种程度上也会受到研究的支持,但它在线性回归方面都是无声的!
据我所知,OLS是最容易解决的问题之一 -
Y = Xb + e
具有b =(X ^ TX)^( - 1)X ^ TY的线性回归解,其中X ^ T是X的转置,并且如果矩阵(X ^ TX)变为奇异(即不可逆)那么它是即使使用广义逆的解决方案存在,也可以完美地显示错误消息.
X ^ TX和X ^ Y的计算只是元素乘积和和的计算,这可能是我理解的最简单的MapReduce.
(这让我觉得......是否有任何模块支持计算回归系数所需的原生矩阵运算?这会使回归模块确实不必要......)
我错过了一些让Mahout难以计算回归的东西吗?
我不知道这样的事情是否有"为什么".它只是不存在.
但是我认为这与你的想法相反; 它太"容易"了.除非您正在解决一千万个方程的解决方案,否则它可能不是Hadoop所要求的规模.有很多现有的软件包可以在一台机器上很好地完成这项工作.如果你想从Apache那里得到一些东西,只需看看Commons Math就行了.
并不是说项目中没有一个优秀的非分布式版本,但由于重点主要是大规模和Hadoop,这可能是"为什么".
| 归档时间: |
|
| 查看次数: |
2129 次 |
| 最近记录: |