目前,我们正在构建一个报告平台,作为我们使用Shark的数据存储.由于Shark的开发已停止,因此我们正处于评估Spark SQL的阶段.根据我们的用例,我们几乎没有问题.
1)我们有各种来源的数据(MySQL,Oracle,Cassandra,Mongo).我们想知道如何将这些数据导入Spark SQL?我们可以使用任何实用工具吗?此实用程序是否支持持续刷新数据(将数据存储上的新添加/更新/删除同步到Spark SQL?
2)是一种在Spark SQL中创建多个数据库的方法吗?
3)对于Reporting UI,我们使用Jasper,我们希望从Jasper连接到Spark SQL.当我们进行初始搜索时,我们知道目前没有消费者支持通过JDBC连接Spark SQL,但在将来的版本中,您希望添加相同的内容.我们想知道什么时候Spark SQL会有一个可以获得JDBC支持的稳定版本?与此同时,我们从https://github.com/amplab/shark/tree/sparkSql获取了源代码,但我们在本地设置和评估它时遇到了一些困难.如果您能帮助我们完成设置说明,那就太棒了.(我可以分享我们面临的问题,请告诉我在哪里可以发布错误日志)
4)我们还需要一个SQL提示符,我们可以在其中执行查询,目前Spark Shell提供SCALA提示符,其中SCALA代码可以执行,从SCALA代码我们可以触发SQL查询.像Shark一样,我们希望在Spark SQL中使用SQL提示符.当我们进行搜索时,我们发现在将来发布的Spark中会添加.如果你能告诉我们哪个版本的Spark会解决同样问题,那将会很棒.
我可以回答(1):
Apache Sqoop 就是专门为关系数据库解决这个问题而设计的。该工具是为 HDFS、HBase 和 Hive 开发的——因此它可用于通过 HDFS 和 Hive 元存储向 Spark 提供数据。
我相信 Cassandra 可以通过 DataStax 的这个连接器用于 SparkContext: https: //github.com/datastax/spark-cassandra-connector ——我从未使用过。
我不知道有任何 MongoDB 连接器。
| 归档时间: |
|
| 查看次数: |
9297 次 |
| 最近记录: |