我注意到Cascalog入门指南指定了Hadoop的一个版本
:profiles { :dev {:dependencies [[org.apache.hadoop/hadoop-core "1.0.3"]]}}
Run Code Online (Sandbox Code Playgroud)
如果我的团队使用不同版本的Hadoop,那我运气不好吗?更广泛地说,Cascalog可以与哪些Hadoop版本进行互操作?
jar
使用(hfs-textline)
和获取在AWS-EMR集群上运行Clojure :
IllegalArgumentException必须指定bucketName参数.com.amazonaws.services.s3.AmazonS3Client.rejectNull`.
在幻灯片36和37的演示中 - Cascalog的作者断言,给定一个名称和年龄的数据集如:[名称年龄],返回所有结果的查询大于平均年龄是300行PIG.
这是一个有效的断言吗?真的有几行PIG?
或者他描述的问题比我描述的更大?
(免责声明 - 我是内森的作品,Clojure和Cascalog的忠实粉丝 - 我只是想直接了解一些事实).