小编HHH*_*HHH的帖子

如何在hadoop工作中优化改组/排序阶段

我正在使用单节点hadoop作业进行一些数据准备.我工作中的映射器/合并器输出许多键(超过5M或6M),显然作业进展缓慢甚至失败.映射阶段最多可运行120个映射器,并且只有一个reducer(这些是自动确定的,我没有为它们设置任何值).我想优化工作,以便更有效地进行洗牌/分拣阶段.我增加到mapreduce.task.io.sort.mb300米,但工作失败,因为它的值大于映射器堆.然后我设置mapred.child.java.opts为-Xmx1024m,但它再次失败,因为它无法初始化输出收集器.这些方案的最佳实践是什么？

hadoop mapreduce hadoop2

HHH*_*HHH

lucky-day

6
推荐指数

2
解决办法

1万
查看次数

如何在Apache Spark中进行多标签分类

我想对大数据集进行多标签文本分类，并且似乎大数据机器学习工具（例如Apache Mahout或Spark MLLib）目前不支持该分类。我想知道是否有人对大数据集进行过多标签分类？有没有计划在不久的将来在Mahout或Spark中集成多标签分类？

mahout apache-spark

HHH*_*HHH

lucky-day

5
推荐指数

1
解决办法

495
查看次数

如何在pandas中分组后从每组中选择前n行？

我有一个具有以下形状的熊猫数据框

 open_year, open_month, type, col1, col2, ....

Run Code Online (Sandbox Code Playgroud)

我想在每个（年，月）中找到顶级类型，所以我首先找到每个（年，月）中每种类型的计数

freq_df = df.groupby(['open_year','open_month','type']).size().reset_index()
freq_df.columns = ['open_year','open_month','type','count']

Run Code Online (Sandbox Code Playgroud)

然后我想根据每个（year_month）的频率（例如计数）找到前 n 个类型。我怎样才能做到这一点？

我可以使用，nlargest但我缺少类型

freq_df.groupby(['open_year','open_month'])['count'].nlargest(5)

Run Code Online (Sandbox Code Playgroud)

但我错过了专栏 type

python pandas

HHH*_*HHH

2018 05-19

5
推荐指数

1
解决办法

5592
查看次数

如何在Python中加密/解密配置文件

我有一个读取配置文件的 python 应用程序。我需要对配置文件进行加密，这样它就不会在磁盘上明文显示。然后我需要在我的应用程序中解密它并读取值。我看到有一个库Secureconfig但它仅适用于 python 2。python 中是否有类似的库可以帮助我做到这一点？

python encryption configuration-files

HHH*_*HHH

lucky-day

5
推荐指数

1
解决办法

1万
查看次数

如何在Hadoop中找到映射器和缩减器所花费的时间？

如何在Hadoop中找到每个映射器和缩减器花费的时间以及在代码(不在Web界面中)中进行洗牌(排序)的时间？所有映射器(或缩减器)的总时间如何？

java hadoop mapreduce

HHH*_*HHH

2013 05-30

4
推荐指数

1
解决办法

3127
查看次数

如何将参数传递给Hadoop中的主程序

每次运行我的Hadoop程序时,我都需要更改映射器和缩减器的数量.有没有办法从命令行(当我运行程序时)将映射器和缩减器的数量传递给我的程序然后用于args检索它？

java hadoop mapreduce

HHH*_*HHH

2013 05-30

4
推荐指数

1
解决办法

6150
查看次数

如何在Spark中使用BLAS库？

我是scala的新手,我在Scala中编写Spark应用程序,我需要使用该axpy函数org.apache.spark.mllib.linalg.BLAS.但是,用户似乎无法访问它.相反,我尝试导入com.github.fomil.netlib并直接访问它.但我也可以.我需要乘以DenseVector.

scala blas apache-spark

HHH*_*HHH

lucky-day

4
推荐指数

1
解决办法

2793
查看次数

如何应用n Array的所有元素的函数？

我是Scala的新手,想math.log在Array [Double]的所有元素上应用一个函数(比方说).钍foreach不起作用.最好的方法是什么？

这是我的代码:

def func(arr: Array[Double]): Double = {

arr.map(a => log(a)).sum
}

Run Code Online (Sandbox Code Playgroud)

scala

HHH*_*HHH

2015 08-07

4
推荐指数

1
解决办法

3600
查看次数

将 scikit-learn 与 pyspark 集成

我正在探索 pyspark 以及将 scikit-learn 与 pyspark 集成的可能性。我想使用 scikit-learn 在每个分区上训练一个模型。这意味着，当我的 RDD 被定义并分布在不同的工作节点之间时，我想使用 scikit-learn 并在每个工作节点上存在的每个分区上训练一个模型（假设是一个简单的 k-means）。由于 scikit-learn 算法采用 Pandas 数据帧，我最初的想法是调用toPandas每个分区，然后训练我的模型。但是，该toPandas函数将 DataFrame 收集到驱动程序中，这不是我要找的东西。有没有其他方法可以实现这样的目标？

scikit-learn apache-spark pyspark

HHH*_*HHH

lucky-day

4
推荐指数

1
解决办法

9344
查看次数

如何在熊猫中将int64转换为日期时间

我有一个pandas数据框，该列具有int64类型的列，但是此列重新设置了日期，例如20180501。我想将此列转换为datetime，并且具有以下代码，但它返回错误消息

 df['new_date'] = pd.to_datetime(df['old_date'].astype('str'), format = '%y%m%d')

Run Code Online (Sandbox Code Playgroud)

我收到以下错误消息

ValueError: unconverted data remains: 0501

Run Code Online (Sandbox Code Playgroud)

如何修复我的代码？

python datetime pandas

HHH*_*HHH

2018 07-27

3
推荐指数

1
解决办法

3020
查看次数

标签统计

apache-spark ×3

hadoop ×3

mapreduce ×3

python ×3

java ×2

pandas ×2

scala ×2

blas ×1

configuration-files ×1

datetime ×1

encryption ×1

hadoop2 ×1

mahout ×1

pyspark ×1

scikit-learn ×1

标签 统计

小编HHH_HHH的帖子

标签统计