我的架构:
|-- Canonical_URL: string (nullable = true)
|-- Certifications: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- Certification_Authority: string (nullable = true)
| | |-- End: string (nullable = true)
| | |-- License: string (nullable = true)
| | |-- Start: string (nullable = true)
| | |-- Title: string (nullable = true)
|-- CompanyId: string (nullable = true)
|-- Country: string (nullable = true)
|-- vendorTags: array (nullable = true)
| |-- …Run Code Online (Sandbox Code Playgroud) 如果文件默认从HDFS加载,spark会为每个块创建一个分区.但是,当从S3存储桶加载文件时,spark如何决定分区?
Cassandra不像RDBMS那样遵守ACID,而是CAP.因此,Cassandra从CAP中选择AP并将其留给用户以进行调整一致性.我绝对不能使用Cassandra进行核心银行交易,因为C*略有不一致.但Cassandra写的非常快,这对OLTP有好处.我可以使用C*for OLAP,因为读取非常快,这对于报告也是有益的.所以我理解只有当你的应用程序不需要你的数据在一段时间内保持一致但是读取和写入应该很快时,C*才是好的?如果我的理解是正确的,请列出一些应用程序?