小编HHH*_*HHH的帖子

如何在java代码中更改Hadoop映射任务的堆大小?

如下面的链接所示,map任务的堆大小的默认值是200 MB,但是我需要增加它,因为我需要将其增加到mapreduce.task.io.sort.mb至少300或400MB.我无法访问Hadoop配置文件以进行此类更改,因此我必须在我的代码中执行此操作.我怎样才能做到这一点?

http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

hadoop mapreduce

2
推荐指数
1
解决办法
7622
查看次数

使用 getResourceAsStream 在 Java 中不起作用

我有一个非常简单的方法,它使用该getclass().getResourceAsStream()方法来读取文件。但是它总是返回 null,我无法弄清楚出了什么问题。这是我的一段代码。

InputStream sw = getClass().getResourceAsStream("/filename.txt");
BufferedReader bf = new BufferedReader( new InputStreamReader(sw));
Run Code Online (Sandbox Code Playgroud)

sw始终保持为空。该文件filename.txt存在于我的项目的根目录中。

编辑:我找到了原因。我意识到我是从 Eclipse 运行我的项目,并且该项目不是我 PC 上类路径的一部分。但是,如果我将程序打包为 jar 文件然后运行它,则 jar 文件中的文件被视为资源,可以使用 getResourceAsStream() 方法读取。

java

2
推荐指数
2
解决办法
1万
查看次数

如何在Python中删除具有太多缺失值的列

我正在研究机器学习问题,其中功能中有许多缺失值.有100个功能,我想删除那些具有太多缺失值的功能(它可能是缺失值超过80%的功能).我怎么能用Python做到这一点.

ps我的数据是Pandas数据帧.

python missing-data dataframe pandas scikit-learn

2
推荐指数
3
解决办法
9445
查看次数

AVRO 模式是否也被编码在二进制部分?

Avro 文件包含纯文本模式,后跟二进制格式的数据。我想知道模式(或其某些部分)是否也存在于二进制部分?我有一种预感,模式(或只是字段名称)也被编码在二进制部分,因为当我对 AVRO 文件的普通模式部分进行一些更改时,我在使用 Avro-tool 导出模式时收到错误消息.jar 。

serialization avro deserialization

1
推荐指数
1
解决办法
1827
查看次数

如何提交oozie协调员工作

我有一个在文件coordinator.xml中定义的oozie协调器作业,它运行在workflow.xml文件中定义的工作流作业。我想运行协调器作业,但是当我发出命令“ oozie job -oozie http://.../oozie/ -config ./job.properties -run”时,它将运行工作流而不是协调器。我如何告诉它运行协调器而不是工作流程?

hadoop oozie oozie-coordinator

1
推荐指数
1
解决办法
2128
查看次数

flatMap是否保持订单完整?

我正在开发一个我有一个Spark应用程序RDD[Array[Array[Float]],我想把它转换成一个RDD[Float].我有以下代码为我执行此任务:

val values = predictions.flatMap { x => (for(y <- 0 to x.length - 1) yield x(y)).map(c => c(0)) }    
Run Code Online (Sandbox Code Playgroud)

但是我不知道使用后是否改变了元素的顺序flatMap?如果是这样,是否有任何其他解决方案保持元素的顺序完整?

scala apache-spark

1
推荐指数
1
解决办法
850
查看次数

Scala中两个日期之间的月差

我在 Scala 中有两个格式为“yyyy-MM-dd”的日期,它们都是一个月的最后一天(2015-05-31),我想找到它们之间的月份差异。我有以下代码,但要找到月差并不容易。

 val format = new java.text.SimpleDateFormat("yyyy-MM-dd")         
 val diff = format.parse(date1).getTime - format.parse(date2).getTime

 val days = TimeUnit.DAYS.convert(diff, TimeUnit.MILLISECONDS)
Run Code Online (Sandbox Code Playgroud)

有什么更好的建议吗?

scala jodatime

1
推荐指数
1
解决办法
6174
查看次数

使用scikit-learn进行ANOVA测试的交叉验证特征选择

我正在使用scikit-learn进行功能选择。这是我的代码

from sklearn.feature_selection import GenericUnivariateSelect
from sklearn.feature_selection import f_classif


scores = GenericUnivariateSelect(f_classif, 'k_best').fit(features_pd, target_pd)
Run Code Online (Sandbox Code Playgroud)

我如何使用f_classif简历方式,以便结果更可靠?

python feature-selection scikit-learn

1
推荐指数
1
解决办法
2056
查看次数

如何基于pandas中的聚合函数添加新列

我有一个熊猫数据框如下

A, B
----
a, 2
a, 5
a, 6
b, 1
b, 2
Run Code Online (Sandbox Code Playgroud)

我想分组列A并总结列中的值B并将其附加为另一列并创建以下数据框

A, B, SUM
--------
a, 2, 13
a, 5, 13
a, 6, 13
b, 1, 3
b, 2, 3
Run Code Online (Sandbox Code Playgroud)

我怎么能在熊猫中做到这一点?

group-by pandas

1
推荐指数
1
解决办法
1508
查看次数