小编use*_*997的帖子

Yarn:自动清除文件缓存和用户缓存

我们正在使用纱线作为资源管理器运行火花流作业,注意到这两个目录在数据节点上被填满,并且当我们只运行几分钟时,我们就耗尽了空间

/tmp/hadoop/data/nm-local-dir/filecache

/tmp/hadoop/data/nm-local-dir/filecache

这些目录不会自动清除,根据我的研究发现需要设置此属性, yarn.nodemanager.localizer.cache.cleanup.interval-ms

即使设置完毕后..它也不会自动清除任何帮助将不胜感激

<configuration>
    ~
    ~   <property>
    ~       <name>yarn.nodemanager.aux-services</name>
    ~       <value>mapreduce_shuffle</value>
    ~   </property>
    ~
    ~   <property>
    ~       <name>yarn.resourcemanager.hostname</name>
    ~       <value>hdfs-name-node</value>
    ~   </property>
    ~
    ~   <property>
    ~       <name>yarn.nodemanager.resource.memory-mb</name>
    ~       <value>16384</value>
    ~   </property>
    ~
    ~   <property>
    ~       <name>yarn.nodemanager.resource.cpu-vcores</name>
    ~       <value>6</value>
    ~   </property>
    ~
    ~   <property>
    ~       <name>yarn.scheduler.maximum-allocation-mb</name>
    ~       <value>16384</value>
    ~   </property>
         <property>
    ~       <name>yarn.nodemanager.localizer.cache.cleanup.interval-ms</name>
    ~       <value>3000</value>
    ~   </property>
    ~
    ~   <!-- Needs to be explicitly set as part of a workaround for YARN-367.
    ~      | If changing this property, …
Run Code Online (Sandbox Code Playgroud)

hadoop hadoop-yarn spark-streaming

7
推荐指数
2
解决办法
1万
查看次数

Spark Streaming与Kafka 2.0.0依赖项

我正在尝试使用spark-streaming2.0.0来使用kafka 0.8主题,我正在尝试识别我在build.sbt文件中尝试使用这些依赖项所需的依赖项

libraryDependencies += "org.apache.spark" %% "spark-streaming_2.11" % "2.0.0"
Run Code Online (Sandbox Code Playgroud)

当我运行sbt包时,我得到所有这三个罐子的未解决的依赖关系,

但这些罐子确实存在

https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-8_2.11/2.0.0

请帮忙调试这个问题,我是Scala的新手,所以如果我没有做对,请告诉我

sbt apache-spark spark-streaming spark-streaming-kafka

5
推荐指数
1
解决办法
3150
查看次数

纱线:使yarn-site.xml更改对集群中的工作程序节点有效

我们有一个在HDFS 2.7.3上运行的Spark Streaming应用程序,其中Yarn作为资源管理器。在运行应用程序时,这两个文件夹:

  /tmp/hadoop/data/nm-local-dir/filecache
    /tmp/hadoop/data/nm-local-dir/filecache 
Run Code Online (Sandbox Code Playgroud)

正在填充,因此磁盘。因此,根据我的研究发现,在yarn-site.xml中配置这两个属性会有所帮助。

<property>
            <name>yarn.nodemanager.localizer.cache.cleanup.interval-ms</name>
            <value>2000</value>
    </property>
    <property>
             <name>yarn.nodemanager.localizer.cache.target-size-mb</name>
             <value>2048</value>
    </property>
Run Code Online (Sandbox Code Playgroud)

我已经在每个namenode和masternode上的yarn-site.xml上配置了它们,并使用stop-yarn.sh start-yarn.sh在masternode上重新启动了yarn 。但是,这似乎仍然无济于事。在进行配置更改时我是否缺少任何内容?以及我们如何确保这些更改传播到所有工作节点?

hadoop hadoop-yarn hadoop2

5
推荐指数
1
解决办法
274
查看次数

Spark:rdd.countApprox() 与 rdd.count()

有人可以解释一下 RDD countApprox() 与 count()之间的区别吗?如果可能的话,可以回答哪个最快?我们有一个要求,其中count() 非常慢,需要大约 30 分钟 ** ...尝试过 countApprox() **第一次运行速度很快(**大约 1.2 分钟),然后减慢到30分钟.....

这就是我们如何使用它不确定它是否是最好的使用方式

rdd.countApprox(timeout=800, confidence=0.5)
Run Code Online (Sandbox Code Playgroud)

apache-spark spark-streaming

3
推荐指数
1
解决办法
5194
查看次数

如何在 AWS API 网关中配置 $default 路径?

我们正在尝试根据https://docs.aws.amazon.com/apigateway/latest/developerguide/http-api-develop-routes.html利用 AWS API 网关中的 $default 路径

像这样配置 api 网关,利用$default 作为路由之一

/
 /-default
   ANY
 /api
  /{proxy=}
Run Code Online (Sandbox Code Playgroud)

当我们尝试在$default路径和 GET 调用上调用 api 网关时

https://apigateway.amazonaws.com/prod/test
Run Code Online (Sandbox Code Playgroud)

我们假设它会调用默认路径,但它没有

message: "Missing Authentication Token"
Run Code Online (Sandbox Code Playgroud)

但是当我们这样做时

https://apigateway.amazonaws.com/prod/api/test 
Run Code Online (Sandbox Code Playgroud)

API集成时调用

注意:我们已经尝试配置贪婪路径{proxy+}而不是 $default ,因为贪婪路径总是优先并且 /api 路由也被路由到贪婪路径

社区为我们指明正确方向的任何帮助都会有很大帮助

amazon-web-services aws-api-gateway api-gateway amazon-api-gateway

1
推荐指数
1
解决办法
1512
查看次数

纱线:hadoop-2.7.3中的yarn-default.xml位置

我们试图在hadoop-2.7.3中找到yarn-default.xml位置,有人可以指向它所在的位置......我能够找到yarn-site.xml但不能找到yarn-default.如果有人能指出它可能位于何处,xml会非常感激.

hadoop hadoop-yarn hadoop2

0
推荐指数
1
解决办法
2102
查看次数