apache mahout ALS可以在没有hadoop的情况下工作吗?

Ste*_*nko 5 windows hadoop mahout

我尝试使用ParallelALSFactorizationJob,但它崩溃了:

Exception in thread "main" java.lang.NullPointerException at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) at org.apache.hadoop.util.Shell.runCommand(Shell.java:445) at org.apache.hadoop.util.Shell.run(Shell.java:418) at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:650) at org.apache.hadoop.util.Shell.execCommand(Shell.java:739)

命令行帮助提到使用文件系统,但似乎它想要hadoop.如何在Windows上运行它,mahout.cmd文件坏了:

"===============DEPRECATION WARNING===============" "This script is no longer supported for new drivers as of Mahout 0.10.0" "Mahout's bash script is supported and if someone wants to contribute a fix for this" "it would be appreciated."

那可能吗(ALS + Windows - hadoop)?

Tia*_*ica 0

Mahout 是一个社区驱动的项目,其社区非常强大。

\n\n
\n

“Apache Mahout 是最早也是最著名的大数据机器学习平台之一。它在 Hadoop 和 Spark 等分布式处理平台之上实现机器学习算法。”

\n
\n\n

-Tiwary, C. (2015)。学习 Apache Mahout

\n\n

Apache Spark 是一个开源、内存中的通用计算系统,可以在 Windows 和类 Unix 系统上运行。Spark不是像Hadoop那样基于磁盘的计算,而是使用集群内存将所有数据上传到内存中,并且这些数据可以重复查询。

\n\n
\n

“随着 Spark 在数据科学家中越来越受欢迎,Mahout\n 社区也在快速致力于让 Mahout 算法在 Spark\n 的执行引擎上运行\n,以将其计算速度提高 10 到 100\n 倍。Mahout 提供了几个重要的功能使用 Spark 创建推荐的构建块。”

\n
\n\n

-古普塔,A (2015)。学习 Apache Mahout 分类

\n\n

(最后一本书还提供了使用 Mahout 的 Spark shell 的分步指南(他们不使用 Windows,但不清楚他们是否使用 Hadoop)。有关该主题的更多信息,请参阅实现部分位于https://mahout.apache.org/users/sparkbindings/play-with-shell.html。)

\n\n

除此之外,您还可以使用 Spark 构建推荐引擎,例如Spark MLlib中提供的 DataFrame、RDD、Pipelines和Transforms

\n\n
\n

在 Spark 中,(...) 交替最小二乘 ( ALS ) 方法\xc2\xa0 用于\n 生成基于模型的协同过滤。

\n
\n\n

-Gorakala, S. (2016)。构建推荐引擎

\n\n

至此,在回答您的问题之前,还有一个问题需要回答:我们可以在没有 Hadoop 的情况下运行 Spark 吗?

\n\n

所以,是的,可以使用 Spark(无需 Hadoop)在 Windows 上使用 ALS 方法。

\n