小编Ond*_*rej的帖子

PySpark:如何从MultilayerPerceptronClassifier获得分类概率?

我在python中使用Spark 2.0.1,我的数据集在DataFrame中,所以我使用ML(不是MLLib)库进行机器学习.我有一个多层感知器分类器,我只有两个标签.

我的问题是,是否有可能不仅获得标签,还可以(或仅)获得该标签的概率?对于每个输入不仅仅是0或1,而是0到0.95和0.05为1.如果MLP不可能,但是可以使用其他分类器,我可以更改分类器.我只使用了MLP,因为我知道它们应该能够返回概率,但我在PySpark中找不到它.

我发现了一个类似的主题, 如何从MultilayerPerceptronClassifier获得分类概率? 但他们使用Java,他们建议的解决方案在python中不起作用.

谢谢

machine-learning neural-network apache-spark pyspark apache-spark-ml

7
推荐指数
1
解决办法
4981
查看次数

GCP Dataproc-配置YARN公平调度程序

我试图建立一个dataproc集群,该集群一次只能计算一个作业(或指定的最大作业),而其余的则在队列中。

我找到了此解决方案,如何在YARN中配置垄断FIFO应用程序队列?,但是由于我一直在创建一个新集群,因此需要使它自动化。我已将此添加到集群创建中:

"softwareConfig": {
    "properties": {
        "yarn:yarn.resourcemanager.scheduler.class":"org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler",
        "yarn:yarn.scheduler.fair.user-as-default-queue":"false",
        "yarn:yarn.scheduler.fair.allocation.file":"$HADOOP_CONF_DIR/fair-scheduler.xml",
     }
}
Run Code Online (Sandbox Code Playgroud)

初始化操作脚本中的另一行:

sudo echo "<allocations><queueMaxAppsDefault>1</queueMaxAppsDefault></allocations>" > /etc/hadoop/conf/fair-scheduler.xml
Run Code Online (Sandbox Code Playgroud)

当我获取其配置时,集群告诉我这一点:

'softwareConfig': {
  'imageVersion': '1.2.27',
  'properties': {
    'capacity-scheduler:yarn.scheduler.capacity.root.default.ordering-policy': 'fair',
    'core:fs.gs.block.size': '134217728',
    'core:fs.gs.metadata.cache.enable': 'false',
    'distcp:mapreduce.map.java.opts': '-Xmx4096m',
    'distcp:mapreduce.map.memory.mb': '5120',
    'distcp:mapreduce.reduce.java.opts': '-Xmx4096m',
    'distcp:mapreduce.reduce.memory.mb': '5120',
    'hdfs:dfs.datanode.address': '0.0.0.0:9866',
    'hdfs:dfs.datanode.http.address': '0.0.0.0:9864',
    'hdfs:dfs.datanode.https.address': '0.0.0.0:9865',
    'hdfs:dfs.datanode.ipc.address': '0.0.0.0:9867',
    'hdfs:dfs.namenode.http-address': '0.0.0.0:9870',
    'hdfs:dfs.namenode.https-address': '0.0.0.0:9871',
    'hdfs:dfs.namenode.secondary.http-address': '0.0.0.0:9868',
    'hdfs:dfs.namenode.secondary.https-address': '0.0.0.0:9869',
    'mapred-env:HADOOP_JOB_HISTORYSERVER_HEAPSIZE': '3840',
    'mapred:mapreduce.job.maps': '189',
    'mapred:mapreduce.job.reduce.slowstart.completedmaps': '0.95',
    'mapred:mapreduce.job.reduces': '63',
    'mapred:mapreduce.map.cpu.vcores': '1',
    'mapred:mapreduce.map.java.opts': '-Xmx4096m',
    'mapred:mapreduce.map.memory.mb': '5120',
    'mapred:mapreduce.reduce.cpu.vcores': '1',
    'mapred:mapreduce.reduce.java.opts': '-Xmx4096m',
    'mapred:mapreduce.reduce.memory.mb': '5120',
    'mapred:mapreduce.task.io.sort.mb': '256',
    'mapred:yarn.app.mapreduce.am.command-opts': '-Xmx4096m', …
Run Code Online (Sandbox Code Playgroud)

hadoop-yarn google-cloud-platform google-cloud-dataproc

2
推荐指数
1
解决办法
1004
查看次数