小编Jos*_*a G的帖子

是否可以将Apache Livy配置为与Spark Standalone一起运行?

在我安装Apache Livy的机器上(在Ubuntu 16.04上):

(a)是否可以在Spark Standalone模式下运行它?

我正在考虑使用预装为Hadoop 2.6的Spark 1.6.3,可从https://spark.apache.org/downloads.html下载

(b)如果是,我该如何配置?

(c)HADOOP_CONF_DIR应该用于Spark Standalone?链接https://github.com/cloudera/livy提到了以下环境变量:

export SPARK_HOME=/usr/lib/spark
export HADOOP_CONF_DIR=/etc/hadoop/conf
Run Code Online (Sandbox Code Playgroud)

我已经成功构建了Livy,除了上一个任务,它在Spark安装上待决:

[INFO] ------------------------------------------------------------------------
[INFO] Reactor Summary:
[INFO] 
[INFO] livy-api ........................................... SUCCESS [  9.984 s]
[INFO] livy-client-common ................................. SUCCESS [  6.681 s]
[INFO] livy-test-lib ...................................... SUCCESS [  0.647 s]
[INFO] livy-rsc ........................................... SUCCESS [01:08 min]
[INFO] livy-core_2.10 ..................................... SUCCESS [  7.225 s]
[INFO] livy-repl_2.10 ..................................... SUCCESS [02:42 min]
[INFO] livy-core_2.11 ..................................... SUCCESS [ 56.400 s]
[INFO] livy-repl_2.11 ..................................... SUCCESS [03:06 min]
[INFO] …
Run Code Online (Sandbox Code Playgroud)

hadoop apache-spark

6
推荐指数
1
解决办法
810
查看次数

时间序列/信号处理的自动趋势检测

有哪些好的算法可以自动检测时间序列数据的趋势或绘制趋势线(上升趋势、下降趋势、无趋势)?如果您能为我指出任何好的研究论文或 python、R 或 Matlab 库,我将不胜感激。

理想情况下,该算法的输出将有 4 列:

  1. 从时间

  2. 到时间

  3. 趋势(上升/下降/无趋势/未知)
  4. 趋势概率或趋势程度

非常感谢您的参与。

趋势线示例

python signal-processing time-series trendline trend

6
推荐指数
1
解决办法
5037
查看次数

bigquery:数据版本控制和增量更新

是否有任何文档介绍如何处理仅附加数据库(例如 BigQuery)以进行实时分析(例如每天更新的 1 亿到 10 亿移动用户配置文件),并将停机时间降至几秒钟。

(1)有一篇文章http://hortonworks.com/blog/four-step-strategy-incremental-updates-hive/关于如何实现增量更新,我想知道BigQuery中是否存在类似的解决方案。

如果我需要附加版本列(例如版本1、2、3)等,有没有快速的方法来计算版本?

(2) 如何将停机时间最小化到几秒钟我喜欢消除 BigQuery 表中的重复记录中提到的解决方案 ,我认为它部分解决了我的挑战。

如果 mydataset.mytable 有 1 亿到 10 亿条唯一的移动用户记录,并且少于几秒的停机时间是不能容忍的,是否有办法消除停机时间?例如虚拟视图?在“bq query --replace”和“bq query cp”期间,表mydataset.mytable是否可以访问,或者该表是否会被锁定,直到替换和查询完成。谢谢。

bq query --allow_large_results --replace --destination_table=mydataset.mytable \
'SELECT * FROM mydataset.mytable
 WHERE key NOT IN (SELECT key FROM mydataset.update)'
Run Code Online (Sandbox Code Playgroud)

bq cp --append_table mydataset.update mydataset.mytable

real-time google-bigquery

5
推荐指数
1
解决办法
5227
查看次数

Hive 对行数、列数、文件大小是否有理论和实践限制?

我无法从https://cwiki.apache.org/confluence/display/Hive/Home找到任何记录的限制

我的猜测是行数或列数没有限制。文件大小受文件系统限制。通过正确分区数据,我们还可以管理文件大小和文件数量。

谢谢。

hadoop hive hdfs

1
推荐指数
1
解决办法
3848
查看次数