小编use*_*997的帖子

Yarn：自动清除文件缓存和用户缓存

我们正在使用纱线作为资源管理器运行火花流作业，注意到这两个目录在数据节点上被填满，并且当我们只运行几分钟时，我们就耗尽了空间

/tmp/hadoop/data/nm-local-dir/filecache

这些目录不会自动清除，根据我的研究发现需要设置此属性， yarn.nodemanager.localizer.cache.cleanup.interval-ms

即使设置完毕后..它也不会自动清除任何帮助将不胜感激

<configuration>
    ~
    ~   <property>
    ~       <name>yarn.nodemanager.aux-services</name>
    ~       <value>mapreduce_shuffle</value>
    ~   </property>
    ~
    ~   <property>
    ~       <name>yarn.resourcemanager.hostname</name>
    ~       <value>hdfs-name-node</value>
    ~   </property>
    ~
    ~   <property>
    ~       <name>yarn.nodemanager.resource.memory-mb</name>
    ~       <value>16384</value>
    ~   </property>
    ~
    ~   <property>
    ~       <name>yarn.nodemanager.resource.cpu-vcores</name>
    ~       <value>6</value>
    ~   </property>
    ~
    ~   <property>
    ~       <name>yarn.scheduler.maximum-allocation-mb</name>
    ~       <value>16384</value>
    ~   </property>
         <property>
    ~       <name>yarn.nodemanager.localizer.cache.cleanup.interval-ms</name>
    ~       <value>3000</value>
    ~   </property>
    ~
    ~   <!-- Needs to be explicitly set as part of a workaround for YARN-367.
    ~      | If changing this property, …

Run Code Online (Sandbox Code Playgroud)

hadoop hadoop-yarn spark-streaming

use*_*997

lucky-day

7
推荐指数

2
解决办法

1万
查看次数

Spark Streaming与Kafka 2.0.0依赖项

我正在尝试使用spark-streaming2.0.0来使用kafka 0.8主题,我正在尝试识别我在build.sbt文件中尝试使用这些依赖项所需的依赖项

libraryDependencies += "org.apache.spark" %% "spark-streaming_2.11" % "2.0.0"

Run Code Online (Sandbox Code Playgroud)

当我运行sbt包时,我得到所有这三个罐子的未解决的依赖关系,

但这些罐子确实存在

https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-8_2.11/2.0.0

请帮忙调试这个问题,我是Scala的新手,所以如果我没有做对,请告诉我

sbt apache-spark spark-streaming spark-streaming-kafka

use*_*997

2018 12-01

5
推荐指数

1
解决办法

3150
查看次数

纱线：使yarn-site.xml更改对集群中的工作程序节点有效

我们有一个在HDFS 2.7.3上运行的Spark Streaming应用程序，其中Yarn作为资源管理器。在运行应用程序时，这两个文件夹：

  /tmp/hadoop/data/nm-local-dir/filecache
    /tmp/hadoop/data/nm-local-dir/filecache

Run Code Online (Sandbox Code Playgroud)

正在填充，因此磁盘。因此，根据我的研究发现，在yarn-site.xml中配置这两个属性会有所帮助。

<property>
            <name>yarn.nodemanager.localizer.cache.cleanup.interval-ms</name>
            <value>2000</value>
    </property>
    <property>
             <name>yarn.nodemanager.localizer.cache.target-size-mb</name>
             <value>2048</value>
    </property>

Run Code Online (Sandbox Code Playgroud)

我已经在每个namenode和masternode上的yarn-site.xml上配置了它们，并使用stop-yarn.sh start-yarn.sh在masternode上重新启动了yarn 。但是，这似乎仍然无济于事。在进行配置更改时我是否缺少任何内容？以及我们如何确保这些更改传播到所有工作节点？

hadoop hadoop-yarn hadoop2

use*_*997

2017 01-12

5
推荐指数

1
解决办法

274
查看次数

Spark：rdd.countApprox() 与 rdd.count()

有人可以解释一下 RDD countApprox() 与 count()之间的区别吗？如果可能的话，可以回答哪个最快？我们有一个要求，其中count() 非常慢，需要大约 30 分钟 ** ...尝试过 countApprox() **第一次运行速度很快（**大约 1.2 分钟），然后减慢到30分钟.....

这就是我们如何使用它不确定它是否是最好的使用方式

rdd.countApprox(timeout=800, confidence=0.5)

Run Code Online (Sandbox Code Playgroud)

apache-spark spark-streaming

use*_*997

lucky-day

3
推荐指数

1
解决办法

5194
查看次数

如何在 AWS API 网关中配置 $default 路径？

我们正在尝试根据https://docs.aws.amazon.com/apigateway/latest/developerguide/http-api-develop-routes.html利用 AWS API 网关中的 $default 路径

像这样配置 api 网关，利用$default 作为路由之一

/
 /-default
   ANY
 /api
  /{proxy=}

Run Code Online (Sandbox Code Playgroud)

当我们尝试在$default路径和 GET 调用上调用 api 网关时

https://apigateway.amazonaws.com/prod/test

Run Code Online (Sandbox Code Playgroud)

我们假设它会调用默认路径，但它没有

message: "Missing Authentication Token"

Run Code Online (Sandbox Code Playgroud)

但是当我们这样做时

https://apigateway.amazonaws.com/prod/api/test

Run Code Online (Sandbox Code Playgroud)

该API集成时调用

注意：我们已经尝试配置贪婪路径{proxy+}而不是 $default ，因为贪婪路径总是优先并且 /api 路由也被路由到贪婪路径

社区为我们指明正确方向的任何帮助都会有很大帮助

amazon-web-services aws-api-gateway api-gateway amazon-api-gateway

use*_*997

2020 05-31

1
推荐指数

1
解决办法

1512
查看次数

纱线:hadoop-2.7.3中的yarn-default.xml位置

我们试图在hadoop-2.7.3中找到yarn-default.xml位置,有人可以指向它所在的位置......我能够找到yarn-site.xml但不能找到yarn-default.如果有人能指出它可能位于何处,xml会非常感激.

hadoop hadoop-yarn hadoop2

use*_*997

lucky-day

0
推荐指数

1
解决办法

2102
查看次数

标签统计

hadoop ×3

hadoop-yarn ×3

spark-streaming ×3

apache-spark ×2

hadoop2 ×2

amazon-api-gateway ×1

amazon-web-services ×1

api-gateway ×1

aws-api-gateway ×1

sbt ×1

spark-streaming-kafka ×1

Yarn：自动清除文件缓存和用户缓存

Spark Streaming与Kafka 2.0.0依赖项

纱线：使yarn-site.xml更改对集群中的工作程序节点有效

Spark：rdd.countApprox() 与 rdd.count()

如何在 AWS API 网关中配置 $default 路径？

纱线:hadoop-2.7.3中的yarn-default.xml位置

标签 统计

小编use_997的帖子

标签统计