小编eli*_*sah的帖子

(为什么)我们需要在RDD上调用缓存或持久化

当从文本文件或集合(或从另一个RDD)创建弹性分布式数据集(RDD)时,我们是否需要显式调用"cache"或"persist"来将RDD数据存储到内存中?或者默认情况下RDD数据是以分布式方式存储在内存中的吗?

val textFile = sc.textFile("/user/emp.txt")
Run Code Online (Sandbox Code Playgroud)

根据我的理解,在上面的步骤之后,textFile是一个RDD,并且可以在节点的所有/部分内存中使用.

如果是这样,为什么我们需要在textFile RDD上调用"cache"或"persist"呢?

scala apache-spark rdd

161
推荐指数
5
解决办法
7万
查看次数

如何制作良好的可重现的Apache Spark示例

我花了相当多的时间阅读标签的一些问题,而且我经常发现海报没有提供足够的信息来真正理解他们的问题.我经常评论要求他们发布MCVE,但有时让他们显示一些样本输入/输出数据就像拔牙一样.例如:请参阅有关此问题的评论.

也许问题的一部分是人们只是不知道如何轻松地为火花数据帧创建MCVE.我认为将这个pandas问题的spark-dataframe版本作为可以链接的指南是有用的.

那么如何创造一个好的,可重复的例子呢?

dataframe apache-spark apache-spark-sql pyspark pyspark-sql

55
推荐指数
4
解决办法
3952
查看次数

Apache Mahout和Apache Spark的MLlib有什么区别?

考虑一个products拥有1000万个产品的MySQL 数据库,用于电子商务网站.

我正在尝试设置分类模块来对产品进行分类.我正在使用Apache Sqoop将数据从MySQL导入Hadoop.

我想使用Mahout作为机器学习框架来使用其中一种分类算法,然后我遇到了随MLlib提供的Spark

  • 那么两个框架之间的区别是什么?
  • 主要是,每个的优点,缺点和局限是什么?

mahout apache-spark apache-spark-mllib

53
推荐指数
2
解决办法
3万
查看次数

elasticsearch - 如何处理未分配的分片

我的群集处于黄色状态,因为某些分片未分配.该怎么办?

我尝试设置cluster.routing.allocation.disable_allocation = false所有索引,但我认为这不起作用,因为我使用的是1.1.1版本.

我也尝试重新启动所有机器,但同样的情况发生了.

任何的想法?

编辑:

  • 群集统计:

    { 
      cluster_name: "elasticsearch",
      status: "red",
      timed_out: false,
      number_of_nodes: 5,
      number_of_data_nodes: 4,
      active_primary_shards: 4689,
      active_shards: 4689,
      relocating_shards: 0,
      initializing_shards: 10,
      unassigned_shards: 758
    }
    
    Run Code Online (Sandbox Code Playgroud)

elasticsearch

50
推荐指数
4
解决办法
8万
查看次数

如何在spark中具有不同列数的两个DataFrame上执行并集?

我有2 DataFrame秒如下:

来源数据

我需要像这样的工会:

在此输入图像描述

unionAll功能不起作用,因为列的数量和名称不同.

我怎样才能做到这一点?

apache-spark apache-spark-sql

40
推荐指数
9
解决办法
5万
查看次数

如何使用spark-ml处理分类功能?

如何处理与分类数据 spark-ml ,而不是 spark-mllib

认为文档不是很清楚,似乎分类器例如RandomForestClassifier,LogisticRegression有一个featuresCol参数,它指定了特征列的名称DataFrame,以及一个labelCol参数,它指定了标记类的列的名称DataFrame.

显然我想在我的预测中使用多个功能,所以我尝试使用VectorAssembler将所有功能放在一个向量下featuresCol.

但是,VectorAssembler只接受数字类型,布尔类型和矢量类型(根据Spark网站),所以我不能在我的特征向量中添加字符串.

我该怎么办?

categorical-data apache-spark apache-spark-ml apache-spark-mllib

38
推荐指数
3
解决办法
4万
查看次数

如何提供Spark MLlib模型?

我正在评估基于生产ML的应用程序的工具,我们的一个选项是Spark MLlib,但是我对如何在训练后提供模型服务有一些疑问?

例如,在Azure ML中,一旦经过培训,该模型将作为Web服务公开,可以从任何应用程序中使用,这与Amazon ML类似.

您如何在Apache Spark中提供/部署ML模型?

machine-learning apache-spark apache-spark-mllib

35
推荐指数
2
解决办法
6654
查看次数

镶木地板格式的图式演变

目前我们正在生产中使用Avro数据格式.在Avro的N个优点中,我们知道它在模式演化方面很有用.

现在我们正在评估Parquet格式,因为它在阅读随机列时具有很高的效率.所以在继续前进之前我们关心的是架构演变!

有谁知道,如果模式演化是可能的实木复合地板,如果是如何,如果没有为什么.一些演示文稿说它是可能的但是只能在最后添加列

这是什么意思?

hadoop data-warehouse avro apache-spark parquet

28
推荐指数
2
解决办法
2万
查看次数

获取超过20行并在spark-shell中显示列的完整值

我使用CassandraSQLContextspark-shell来查询来自Cassandra的数据.所以,我想知道两个方面,一个是如何获取超过20行CassandraSQLContext,第二个是如何Id显示列的完整值.正如您在默认情况下可以看到的那样,它会在字符串值中附加点.

代码:

val csc = new CassandraSQLContext(sc)
csc.setKeyspace("KeySpace")
val maxDF = csc.sql("SQL_QUERY" )
maxDF.show
Run Code Online (Sandbox Code Playgroud)

输出:

+--------------------+--------------------+-----------------+--------------------+
|                  id|               Col2|              Col3|                Col4| 
+--------------------+--------------------+-----------------+--------------------+
|8wzloRMrGpf8Q3bbk...|             Value1|                 X|                  K1|
|AxRfoHDjV1Fk18OqS...|             Value2|                 Y|                  K2|
|FpMVRlaHsEOcHyDgy...|             Value3|                 Z|                  K3|
|HERt8eFLRtKkiZndy...|             Value4|                 U|                  K4|
|nWOcbbbm8ZOjUSNfY...|             Value5|                 V|                  K5|
Run Code Online (Sandbox Code Playgroud)

scala apache-spark apache-spark-sql pyspark

25
推荐指数
2
解决办法
4万
查看次数

高斯混合模型:Spark MLlib和scikit-learn之间的区别

我正在尝试在数据集的样本上使用高斯混合模型.我使用了两个MLlib(带pyspark)和scikit-learn得到非常不同的结果,scikit-learn一个看起来更逼真.

from pyspark.mllib.clustering import GaussianMixture as SparkGaussianMixture
from sklearn.mixture import GaussianMixture
from pyspark.mllib.linalg import Vectors
Run Code Online (Sandbox Code Playgroud)

Scikit-learn:

local = pd.DataFrame([ x.asDict() for x in df.sample(0.0001).collect() ])
model1 = GaussianMixture(n_components=3)
model1.fit([ [x] for x in local['field'].tolist() ])

model1.means_
array([[7.56123598e+00],
   [1.32517410e+07],
   [3.96762639e+04]])

model1.covariances_
array([[[6.65177423e+00]],
   [[1.00000000e-06]],
   [[8.38380897e+10]]])
Run Code Online (Sandbox Code Playgroud)

MLLib:

model2 = SparkGaussianMixture.train(
    sc.createDataFrame(local).rdd.map(lambda x: Vectors.dense(x.field)),
    k=3,
    convergenceTol=1e-4,
    maxIterations=100
)

model2.gaussians
[MultivariateGaussian(mu=DenseVector([28736.5113]), sigma=DenseMatrix(1, 1, [1094083795.0001], 0)),
 MultivariateGaussian(mu=DenseVector([7839059.9208]), sigma=DenseMatrix(1, 1, [38775218707109.83], 0)),
 MultivariateGaussian(mu=DenseVector([43.8723]), sigma=DenseMatrix(1, 1, [608204.4711], 0))] …
Run Code Online (Sandbox Code Playgroud)

python scikit-learn apache-spark pyspark apache-spark-mllib

19
推荐指数
1
解决办法
771
查看次数