我正在使用单节点hadoop作业进行一些数据准备.我工作中的映射器/合并器输出许多键(超过5M或6M),显然作业进展缓慢甚至失败.映射阶段最多可运行120个映射器,并且只有一个reducer(这些是自动确定的,我没有为它们设置任何值).我想优化工作,以便更有效地进行洗牌/分拣阶段.我增加到mapreduce.task.io.sort.mb300米,但工作失败,因为它的值大于映射器堆.然后我设置mapred.child.java.opts为-Xmx1024m,但它再次失败,因为它无法初始化输出收集器.这些方案的最佳实践是什么?
我想对大数据集进行多标签文本分类,并且似乎大数据机器学习工具(例如Apache Mahout或Spark MLLib)目前不支持该分类。我想知道是否有人对大数据集进行过多标签分类?有没有计划在不久的将来在Mahout或Spark中集成多标签分类?
我有一个具有以下形状的熊猫数据框
open_year, open_month, type, col1, col2, ....
Run Code Online (Sandbox Code Playgroud)
我想在每个(年,月)中找到顶级类型,所以我首先找到每个(年,月)中每种类型的计数
freq_df = df.groupby(['open_year','open_month','type']).size().reset_index()
freq_df.columns = ['open_year','open_month','type','count']
Run Code Online (Sandbox Code Playgroud)
然后我想根据每个(year_month)的频率(例如计数)找到前 n 个类型。我怎样才能做到这一点?
我可以使用,nlargest但我缺少类型
freq_df.groupby(['open_year','open_month'])['count'].nlargest(5)
Run Code Online (Sandbox Code Playgroud)
但我错过了专栏 type
我有一个读取配置文件的 python 应用程序。我需要对配置文件进行加密,这样它就不会在磁盘上明文显示。然后我需要在我的应用程序中解密它并读取值。我看到有一个库Secureconfig但它仅适用于 python 2。python 中是否有类似的库可以帮助我做到这一点?
如何在Hadoop中找到每个映射器和缩减器花费的时间以及在代码(不在Web界面中)中进行洗牌(排序)的时间?所有映射器(或缩减器)的总时间如何?
每次运行我的Hadoop程序时,我都需要更改映射器和缩减器的数量.有没有办法从命令行(当我运行程序时)将映射器和缩减器的数量传递给我的程序然后用于args检索它?
我是scala的新手,我在Scala中编写Spark应用程序,我需要使用该axpy函数org.apache.spark.mllib.linalg.BLAS.但是,用户似乎无法访问它.相反,我尝试导入com.github.fomil.netlib并直接访问它.但我也可以.我需要乘以DenseVector.
我是Scala的新手,想math.log在Array [Double]的所有元素上应用一个函数(比方说).钍foreach不起作用.最好的方法是什么?
这是我的代码:
def func(arr: Array[Double]): Double = {
arr.map(a => log(a)).sum
}
Run Code Online (Sandbox Code Playgroud) 我正在探索 pyspark 以及将 scikit-learn 与 pyspark 集成的可能性。我想使用 scikit-learn 在每个分区上训练一个模型。这意味着,当我的 RDD 被定义并分布在不同的工作节点之间时,我想使用 scikit-learn 并在每个工作节点上存在的每个分区上训练一个模型(假设是一个简单的 k-means)。由于 scikit-learn 算法采用 Pandas 数据帧,我最初的想法是调用toPandas每个分区,然后训练我的模型。但是,该toPandas函数将 DataFrame 收集到驱动程序中,这不是我要找的东西。有没有其他方法可以实现这样的目标?
我有一个pandas数据框,该列具有int64类型的列,但是此列重新设置了日期,例如20180501。我想将此列转换为datetime,并且具有以下代码,但它返回错误消息
df['new_date'] = pd.to_datetime(df['old_date'].astype('str'), format = '%y%m%d')
Run Code Online (Sandbox Code Playgroud)
我收到以下错误消息
ValueError: unconverted data remains: 0501
Run Code Online (Sandbox Code Playgroud)
如何修复我的代码?
apache-spark ×3
hadoop ×3
mapreduce ×3
python ×3
java ×2
pandas ×2
scala ×2
blas ×1
datetime ×1
encryption ×1
hadoop2 ×1
mahout ×1
pyspark ×1
scikit-learn ×1