小编dev*_*per的帖子

在talend中运行并行作业

我有一种情况,我需要在talend中并行运行五个不同的子作业.问题是,在我的选择查询中,我将获得五个不同的ID,然后对于每个特定的ID,我需要运行五个不同的作业.tparrallelize组件的问题在于,它不允许我将上下文变量传递给每个子作业,即在这种特定情况下的id.

从表限制5中选择id; ---->具有不同id作为参数的同一作业的五个不同实例

任何帮助将受到高度赞赏

谢谢

parallel-processing jobs job-scheduling talend

5
推荐指数
1
解决办法
6300
查看次数

Hive Metastore 中的上次访问时间更新

我在我的 Hive 控制台/.hiverc文件中使用以下属性,以便每当我查询表时,它都会更新Hive 元存储表中的LAST_ACCESS_TIMETBLS

set hive.exec.pre.hooks = org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec;
Run Code Online (Sandbox Code Playgroud)

但是,如果我使用spark-sqlor spark-shell,它似乎不起作用并且LAST_ACCESS_TIME不会在 hive Metastore 中更新。

这是我阅读表格的方式:

>>> df = spark.sql("select * from db.sometable")
>>> df.show()
Run Code Online (Sandbox Code Playgroud)

我已经hive-site.xml/etc/hive/conf和 中设置了上述钩子/etc/spark/conf

hive apache-spark apache-spark-sql pyspark

5
推荐指数
1
解决办法
398
查看次数