根据Databricks的文章,可以将 delta Lake 与 AWS Glue 集成。但是,我不确定是否也可以在 Databricks 平台之外进行。有人这样做过吗?另外,是否可以使用 Glue 爬虫添加与 Delta Lake 相关的元数据?
是否有一种有效的技术可以通过HTTP发送批处理不同的Protobuf事件?
目标是在一个请求中列出多种类型的Protobuf消息。我的一个想法是将消息分成小数组,然后指定消息的类型,以便能够在服务器上反序列化它们。
serialization http protocol-buffers protobuf-net protobuf-java
我不明白 S3 和 EMRFS 之间的细微差别。我们应该将 EMRFS 视为允许从 Hadoop 应用程序写入/读取 S3 的库和 API 的集合,还是更多?而且这个官方文档也无济于事。
我尝试创建一个 gRPC 客户端。为了
val channel = ManagedChannelBuilder.forAddress(host, port).usePlaintext(true).build
Run Code Online (Sandbox Code Playgroud)
我收到这个编译时错误
Error:(18, 87) value build is not a member of ?0
val channel = ManagedChannelBuilder.forAddress(host, port).usePlaintext(true).build
Run Code Online (Sandbox Code Playgroud)
gRPC 是为 Java 构建的。我的项目是多模块 Maven 项目,其中 protobuf 文件和生成的代码位于单独的模块中。
amazon-s3 ×2
amazon-emr ×1
apache-spark ×1
aws-glue ×1
delta-lake ×1
grpc ×1
grpc-java ×1
hadoop ×1
hdfs ×1
http ×1
java ×1
maven ×1
protobuf-net ×1
scala ×1