我正在尝试确定不同粒度级别的完成状态。例如,如果该地区的所有城镇都是完整的,则该地区是“完整的”。
我在 Spark 中使用以下方法将状态保持在最低级别(城镇),在内存中:
步骤 1. 将 Cassandra 表中的初始状态加载到 Spark 数据帧中。
+----------+--------+--------+------------+
| country | region | town | isComplete |
+----------+--------+--------+------------+
| Country1 | State1 | Town1 | FALSE |
| Country1 | State1 | Town2 | FALSE |
| Country1 | State1 | Town3 | FALSE |
| Country1 | State1 | Town4 | FALSE |
| Country1 | State1 | Town5 | FALSE |
| Country1 | State1 | Town6 | FALSE |
| Country1 | State1 …Run Code Online (Sandbox Code Playgroud) scala cassandra apache-spark spark-streaming apache-spark-sql
基于条件为真我在shell脚本中执行hive -e.它工作正常.当我在Oozie中将此脚本放入Shell操作并运行时,我得到一个scriptName.sh:第42行:hive:命令未找到异常.
我尝试在shell动作中传递<env-var> PATH =/usr/lib/hive </ env-var>,但我想我在那里犯了一些错误,因为我得到了同样的错误scriptName.sh:第42行:hive:找不到命令
编辑:
我which hive在shell脚本中使用过.它的输出不一致.我得到两个输出变量:
1./usr/bin/hive以及Delegation token can be issued only with kerberos or web authenticationJava IOException."
2.which : hive not in {.:/sbin:/usr/bin:/usr/sbin:...}