小编Oph*_*tan的帖子

spark谓词下推是否适用于JDBC？

Catalyst应用逻辑优化,例如谓词下推.优化器可以将过滤器谓词下推到数据源中,使物理执行能够跳过不相关的数据.

Spark支持将谓词下推到数据源.此功能是否也适用于JDBC？

(通过检查数据库日志,我可以看到它现在不是默认行为 - 完整查询将传递给数据库,即使它后来受到限制因素限制)

更多细节

使用PostgreSQL 9.4运行Spark 1.5

代码段:

from pyspark import SQLContext, SparkContext, Row, SparkConf
from data_access.data_access_db import REMOTE_CONNECTION

sc = SparkContext()
sqlContext = SQLContext(sc)

url = 'jdbc:postgresql://{host}/{database}?user={user}&password={password}'.format(**REMOTE_CONNECTION)
sql = "dummy"

df = sqlContext.read.jdbc(url=url, table=sql)
df = df.limit(1)
df.show()

Run Code Online (Sandbox Code Playgroud)

SQL跟踪:

< 2015-09-15 07:11:37.718 EDT >LOG:  execute <unnamed>: SET extra_float_digits = 3                                                                                                                      
< 2015-09-15 07:11:37.771 EDT >LOG:  execute <unnamed>: SELECT * FROM dummy WHERE 1=0                                                                                                                   
< 2015-09-15 07:11:37.830 EDT >LOG:  execute <unnamed>: SELECT c.oid, a.attnum, a.attname, c.relname, …

Run Code Online (Sandbox Code Playgroud)

python jdbc apache-spark apache-spark-sql pyspark

Oph*_*tan

2015 10-27

23
推荐指数

1
解决办法

8152
查看次数

是否有可能git lfs pull忽略一些文件/文件夹？

简短的问题:是否可以配置git,以便常规git pull将忽略某些文件？

问题描述:我有一个包含一些大数据文件的存储库(使用git lfs存储)

虽然一些处理数据文件的开发人员需要这些文件的更新版本,但其他开发人员需要这些文件,但不一定需要最新版本.

他们确实需要更新的代码版本.数据文件与代码位于同一个存储库中.

我想设置常规拉不会更新数据文件的方式.

我知道可以在不从LFS下载文件的情况下进行拉取,但是这将用指针文件替换文件,我需要以前版本的文件.

git git-lfs

Oph*_*tan

2017 12-20

14
推荐指数

3
解决办法

5664
查看次数

是否有可能在角膜板中可视化keras嵌入？

keras能够使用keras.callbacks.TensorBoard以张量板可编码格式导出其中一些训练数据

但是,它不支持在tensorboard中嵌入可视化.

有没有解决的办法？

python keras tensorflow tensorboard

Oph*_*tan

2017 01-23

13
推荐指数

2
解决办法

9146
查看次数

当任务依赖关系变得过时时,luigi可以重新运行任务吗？

据我所知,a luigi.Target既可以存在,也可以不存在.因此,如果luigi.Target存在,则不会重新计算.

我正在寻找一种方法来强制重新计算任务,如果其中一个依赖项被修改,或者其中一个任务的代码发生了变化.

python luigi

Oph*_*tan

2019 02-07

11
推荐指数

1
解决办法

4519
查看次数

尊重部署在Cloudfoundry或Heroku上的Gradle/Spring应用程序的代码库因子(来自12因素应用程序宣言)

我的问题涉及12因素应用宣言的第一个因素:代码库.(见http://12factor.net/codebase).

TL; DR:

这个因素表明代码库和部署之间存在一对一的关系,所以在这种情况下,你不应该为两个应用程序使用相同的代码库(存储库)

我的要求:我有一个网站Spring应用程序和一个批处理Spring应用程序共享一个公共代码,即域模型(JPA实体类).我需要能够分享这个共同的代码.而这两个应用程序需要使用的通用代码相同的版本在任何一个时间.

我目前的设置:我目前在github上有三个"顶级"存储库:

域模型(JPA实体类)repo
网站应用程序回购
- 域模型目录/ gradle项目(包括在内git subtree pull/push)
批量应用程序repo
- 域模型目录/ gradle项目(包括在内git subtree pull/push)

另请注意,域模型存储库单独存在(如上所述),但也嵌套在网站和批处理应用程序存储库中.我使用a git subtree pull/push来包含此域模型仓库作为目录和另外两个仓库中的gradle项目.原因是Heroku从repos构建代码本身.

所有这些都非常乏味且容易出错.

有人可以建议更好的解决方案吗？

github heroku gradle cloud-foundry 12factor

bal*_*teo

2017 12-19

9
推荐指数

1
解决办法

192
查看次数

WSDL到Java或Java到WSDL？

我最近选择了一个相当讨厌的构建过程的项目.JAXB读取手工编码的XSD模式以生成类和工厂的Java模型,该模型用于手工编码的Java Web服务类(带注释),然后将其部署到服务器,该服务器用作读取完整的源的源WSDL来自以生成第二个基于Java的模型,该模型包括用于客户端程序的完整WSDL的服务和工厂类.

这听起来很糟糕,我认为我不需要它如此复杂,所以在某些阶段我想把这一切都扔掉,或者

手工制作WSDL,生成完整模型并添加服务代码.
或者 - 编写服务和模型类,并在运行时根据需要在服务器上生成WSDL.

无论哪种方式,我想最终得到一个服务器和客户端都可以使用的模型的源代码库,并且对于模型应该具有一个"真实来源",在那时我觉得我有几个.

目前我倾向于第二种选择,但你会选择哪种？你会使用哪些技术？

java soa wsdl web-services java-ee

dre*_*kka

2011 03-16

8
推荐指数

2
解决办法

8789
查看次数

在Java中实现Scala函数

我正在尝试实现一个scala函数对象(具体来说 - 与apache spark一起使用)

等效的java类型是scala.Function0(对于参数少的函数)

除了实现业务逻辑的方法apply(),我看到我必须实现其他几个方法.

简单的谷歌搜索方法名称没有帮助(我看到了关于tag应该实现的方法的参考- 但这里的方法名称是不同的.

这是使用这些方法的代码(使用空实现).

    private static class functionObject implements Function0<Integer>{

    @Override
    public Integer apply() {
        // TODO Auto-generated method stub
        return null;
    }

    @Override
    public byte apply$mcB$sp() {
        // TODO Auto-generated method stub
        return 0;
    }

    @Override
    public char apply$mcC$sp() {
        // TODO Auto-generated method stub
        return 0;
    }

    @Override
    public double apply$mcD$sp() {
        // TODO Auto-generated method stub
        return 0;
    }

    @Override
    public float apply$mcF$sp() {
        // TODO …

Run Code Online (Sandbox Code Playgroud)

java scala scala-java-interop

Oph*_*tan

2014 09-02

8
推荐指数

1
解决办法

1726
查看次数