我有一种情况,我需要在talend中并行运行五个不同的子作业.问题是,在我的选择查询中,我将获得五个不同的ID,然后对于每个特定的ID,我需要运行五个不同的作业.tparrallelize组件的问题在于,它不允许我将上下文变量传递给每个子作业,即在这种特定情况下的id.
从表限制5中选择id; ---->具有不同id作为参数的同一作业的五个不同实例
任何帮助将受到高度赞赏
谢谢
我在我的 Hive 控制台/.hiverc文件中使用以下属性,以便每当我查询表时,它都会更新Hive 元存储表中的LAST_ACCESS_TIME列TBLS。
set hive.exec.pre.hooks = org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec;
Run Code Online (Sandbox Code Playgroud)
但是,如果我使用spark-sqlor spark-shell,它似乎不起作用并且LAST_ACCESS_TIME不会在 hive Metastore 中更新。
这是我阅读表格的方式:
>>> df = spark.sql("select * from db.sometable")
>>> df.show()
Run Code Online (Sandbox Code Playgroud)
我已经hive-site.xml在/etc/hive/conf和 中设置了上述钩子/etc/spark/conf。