Apache Spark - 后端服务器

use*_*ju7 5 php apache-spark apache-spark-sql

我用 PHP 开发了一个报告应用程序。该应用程序使用 HTML、CSS、javascript 库、图表库 (Highcharts) 和 MySQL 构建以存储数据。用户在前端选择一些选项并单击“提交按钮”。然后 PHP 层执行一堆必需的 SQL 并将 json 结果发送回绘制图表和数据表的 UI。

现在的要求是,能够将大数据解决方案 Apache Spark 插入现有应用程序。过去 2 周我一直在研究是否可以使用 REST API 或某种 Spark SQL 驱动程序以某种方式插入 PHP 应用程序以连接到 Spark SQL 服务器并执行我现在拥有的同一组 SQL Spark SQL。我还没有找到解决方案。我现在已经开始研究基于 Java 的技术,如 Spring,其他如 Angularjs、Nodejs 和其他 MVC 框架,以从头开始重写项目。我不是 Java 开发的忠实粉丝,因为我不是一个铁杆开发人员。(我构建了一些方便的工具来完成工作)。

我确实读过这个 - https://cwiki.apache.org/confluence/display/Hive/HiveClient#HiveClient-PHP,但看起来它是一个独立的火花安装。就我而言,我正在处理一个巨大的集群。

我非常感谢这里的任何方向。

Pra*_*mal 5

是的,它可以通过在 spark 应用程序中使用 hive 上下文和 spark sql thrift 服务器来完成。

您可以运行 Spark 应用程序并进行所有处理。处理后,如果您使用的是数据框,则只需将其注册为临时表。

现在您可以从 spark 应用程序启动一个 thrift 服务器。

启动 thrift 服务器后,您可以查询临时表并在 PHP 中使用适当的 jdbc divers 获取结果和见解。

有关更多详细信息,请参阅下面的链接 https://medium.com/@anicolaspp/apache-spark-as-a-distributed-sql-engine-4373e254e0f9#.ekc3cs28u