小编Suh*_*uli的帖子

如何根据PySpark中的数组值进行过滤?

我的架构:

|-- Canonical_URL: string (nullable = true)
 |-- Certifications: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- Certification_Authority: string (nullable = true)
 |    |    |-- End: string (nullable = true)
 |    |    |-- License: string (nullable = true)
 |    |    |-- Start: string (nullable = true)
 |    |    |-- Title: string (nullable = true)
 |-- CompanyId: string (nullable = true)
 |-- Country: string (nullable = true)
|-- vendorTags: array (nullable = true)
 |    |-- …
Run Code Online (Sandbox Code Playgroud)

python dataframe apache-spark apache-spark-sql pyspark

9
推荐指数
2
解决办法
1万
查看次数

从S3存储桶加载文件时Spark会创建多少个分区?

如果文件默认从HDFS加载,spark会为每个块创建一个分区.但是,当从S3存储桶加载文件时,spark如何决定分区?

hadoop amazon-s3 bigdata apache-spark rdd

7
推荐指数
1
解决办法
3106
查看次数

Cassandra适用于OLAP还是OLTP或两者兼而有之?

Cassandra不像RDBMS那样遵守ACID,而是CAP.因此,Cassandra从CAP中选择AP并将其留给用户以进行调整一致性.我绝对不能使用Cassandra进行核心银行交易,因为C*略有不一致.但Cassandra写的非常快,这对OLTP有好处.我可以使用C*for OLAP,因为读取非常快,这对于报告也是有益的.所以我理解只有当你的应用程序不需要你的数据在一段时间内保持一致但是读取和写入应该很快时,C*才是好的?如果我的理解是正确的,请列出一些应用程序?

hadoop cassandra datastax cassandra-2.0 cassandra-2.1

3
推荐指数
1
解决办法
4604
查看次数