小编HHH*_*HHH的帖子

如何在java代码中更改Hadoop映射任务的堆大小？

如下面的链接所示,map任务的堆大小的默认值是200 MB,但是我需要增加它,因为我需要将其增加到mapreduce.task.io.sort.mb至少300或400MB.我无法访问Hadoop配置文件以进行此类更改,因此我必须在我的代码中执行此操作.我怎样才能做到这一点？

http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

hadoop mapreduce

HHH*_*HHH

2013 10-31

2
推荐指数

1
解决办法

7622
查看次数

使用 getResourceAsStream 在 Java 中不起作用

我有一个非常简单的方法，它使用该getclass().getResourceAsStream()方法来读取文件。但是它总是返回 null，我无法弄清楚出了什么问题。这是我的一段代码。

InputStream sw = getClass().getResourceAsStream("/filename.txt");
BufferedReader bf = new BufferedReader( new InputStreamReader(sw));

Run Code Online (Sandbox Code Playgroud)

sw始终保持为空。该文件filename.txt存在于我的项目的根目录中。

编辑：我找到了原因。我意识到我是从 Eclipse 运行我的项目，并且该项目不是我 PC 上类路径的一部分。但是，如果我将程序打包为 jar 文件然后运行它，则 jar 文件中的文件被视为资源，可以使用 getResourceAsStream() 方法读取。

java

HHH*_*HHH

2015 12-01

2
推荐指数

2
解决办法

1万
查看次数

如何在Python中删除具有太多缺失值的列

我正在研究机器学习问题,其中功能中有许多缺失值.有100个功能,我想删除那些具有太多缺失值的功能(它可能是缺失值超过80%的功能).我怎么能用Python做到这一点.

ps我的数据是Pandas数据帧.

python missing-data dataframe pandas scikit-learn

HHH*_*HHH

2017 08-05

2
推荐指数

3
解决办法

9445
查看次数

AVRO 模式是否也被编码在二进制部分？

Avro 文件包含纯文本模式，后跟二进制格式的数据。我想知道模式（或其某些部分）是否也存在于二进制部分？我有一种预感，模式（或只是字段名称）也被编码在二进制部分，因为当我对 AVRO 文件的普通模式部分进行一些更改时，我在使用 Avro-tool 导出模式时收到错误消息.jar 。

serialization avro deserialization

HHH*_*HHH

2015 04-08

1
推荐指数

1
解决办法

1827
查看次数

如何提交oozie协调员工作

我有一个在文件coordinator.xml中定义的oozie协调器作业，它运行在workflow.xml文件中定义的工作流作业。我想运行协调器作业，但是当我发出命令“ oozie job -oozie http：//.../oozie/ -config ./job.properties -run”时，它将运行工作流而不是协调器。我如何告诉它运行协调器而不是工作流程？

hadoop oozie oozie-coordinator

HHH*_*HHH

lucky-day

1
推荐指数

1
解决办法

2128
查看次数

flatMap是否保持订单完整？

我正在开发一个我有一个Spark应用程序RDD[Array[Array[Float]],我想把它转换成一个RDD[Float].我有以下代码为我执行此任务:

val values = predictions.flatMap { x => (for(y <- 0 to x.length - 1) yield x(y)).map(c => c(0)) }

Run Code Online (Sandbox Code Playgroud)

但是我不知道使用后是否改变了元素的顺序flatMap？如果是这样,是否有任何其他解决方案保持元素的顺序完整？

scala apache-spark

HHH*_*HHH

lucky-day

1
推荐指数

1
解决办法

850
查看次数

Scala中两个日期之间的月差

我在 Scala 中有两个格式为“yyyy-MM-dd”的日期，它们都是一个月的最后一天（2015-05-31），我想找到它们之间的月份差异。我有以下代码，但要找到月差并不容易。

 val format = new java.text.SimpleDateFormat("yyyy-MM-dd")         
 val diff = format.parse(date1).getTime - format.parse(date2).getTime

 val days = TimeUnit.DAYS.convert(diff, TimeUnit.MILLISECONDS)

Run Code Online (Sandbox Code Playgroud)

有什么更好的建议吗？

scala jodatime

HHH*_*HHH

lucky-day

1
推荐指数

1
解决办法

6174
查看次数

使用scikit-learn进行ANOVA测试的交叉验证特征选择

我正在使用scikit-learn进行功能选择。这是我的代码

from sklearn.feature_selection import GenericUnivariateSelect
from sklearn.feature_selection import f_classif


scores = GenericUnivariateSelect(f_classif, 'k_best').fit(features_pd, target_pd)

Run Code Online (Sandbox Code Playgroud)

我如何使用f_classif简历方式，以便结果更可靠？

python feature-selection scikit-learn

HHH*_*HHH

2017 08-30

1
推荐指数

1
解决办法

2056
查看次数

如何基于pandas中的聚合函数添加新列

我有一个熊猫数据框如下

A, B
----
a, 2
a, 5
a, 6
b, 1
b, 2

Run Code Online (Sandbox Code Playgroud)

我想分组列A并总结列中的值B并将其附加为另一列并创建以下数据框

A, B, SUM
--------
a, 2, 13
a, 5, 13
a, 6, 13
b, 1, 3
b, 2, 3

Run Code Online (Sandbox Code Playgroud)

我怎么能在熊猫中做到这一点？

group-by pandas

HHH*_*HHH

lucky-day

1
推荐指数

1
解决办法

1508
查看次数

标签统计

hadoop ×2

pandas ×2

python ×2

scala ×2

scikit-learn ×2

apache-spark ×1

avro ×1

dataframe ×1

deserialization ×1

feature-selection ×1

group-by ×1

java ×1

jodatime ×1

mapreduce ×1

missing-data ×1

oozie ×1

oozie-coordinator ×1

serialization ×1

标签 统计

小编HHH_HHH的帖子

标签统计