小编Can*_*ic3的帖子

`yarn.scheduler.maximum-allocation-mb`和`yarn.nodemanager.resource.memory-mb`之间的区别?

yarn.scheduler.maximum-allocation-mb和之间有什么区别yarn.nodemanager.resource.memory-mb

我看到了这两个,yarn-site.xml我在这里看到了解释.

yarn.scheduler.maximum-allocation-mb给出以下定义:RM中每个容器请求的最大分配,以MB为单位.高于此值的内存请求将抛出InvalidResourceRequestException. 这是否意味着仅在资源管理器上的内存请求受此值的限制?

并且yarn.nodemanager.resource.memory-mb给出了可以为容器分配的物理内存量(MB)的定义. 这是否意味着整个集群中所有容器的总量总和在一起?

我还是无法辨别这些.这些解释让我觉得它们是一样的.

更令人困惑的是,它们的默认值完全相同:8192 mb.我如何区分这些?谢谢.

hadoop memory-management hdfs hadoop-yarn

21
推荐指数
1
解决办法
2万
查看次数

如何让sklearn K最近邻居采取自定义距离指标?

我有一个我需要使用的自定义距离指标KNN,K Nearest Neighbors.

我试着遵循这个,但我不能因为某些原因让它工作.

我假设距离度量应该采用两个相同长度的向量/数组,如下所述:

import sklearn 
from sklearn.neighbors import NearestNeighbors
import numpy as np
import pandas as pd

def d(a,b,L):
    # Inputs: a and b are rows from a data matrix   
    return a+b+2+L

knn=NearestNeighbors(n_neighbors=1,
                 algorithm='auto',
                 metric='pyfunc',
                 func=lambda a,b: d(a,b,L)
                 )


X=pd.DataFrame({'b':[0,3,2],'c':[1.0,4.3,2.2]})
knn.fit(X)
Run Code Online (Sandbox Code Playgroud)

但是,当我调用:时knn.kneighbors(),它似乎不喜欢自定义函数.这是错误堆栈的底部:

ValueError: Unknown metric pyfunc. Valid metrics are ['euclidean', 'l2', 'l1', 'manhattan', 'cityblock', 'braycurtis', 'canberra', 'chebyshev', 'correlation', 'cosine', 'dice', 'hamming', 'jaccard', 'kulsinski', 'mahalanobis', 'matching', 'minkowski', 'rogerstanimoto', 'russellrao', 'seuclidean', 'sokalmichener', …
Run Code Online (Sandbox Code Playgroud)

distance nearest-neighbor scikit-learn udf

14
推荐指数
1
解决办法
5011
查看次数

在git中checkout远程分支和pull远程分支之间的区别?

有什么区别:

git checkout -b <branch> origin/<branch>
Run Code Online (Sandbox Code Playgroud)

git pull origin <branch>
Run Code Online (Sandbox Code Playgroud)

他们似乎对我有相同的功能.谢谢.

git merge git-pull git-checkout

8
推荐指数
1
解决办法
6517
查看次数

如何让git忽略我的csv文件?

我希望git忽略我的csv文件.但是,当我这样做时git status,我看到csv在"Changes not staged for commit".但是,我发誓我刚才将它添加到.gitignore文件中.事实上,当我查看.gitignore文件时,我发现它就在那里!

*.csv
Run Code Online (Sandbox Code Playgroud)

那么,如何git忽略我的csv呢?问题是,我希望能够做到git resetgit checkout而不必担心csv文件在我的工作目录中被覆盖.

csv git gitignore

8
推荐指数
2
解决办法
1万
查看次数

如何判断我的火花工作是否正在进行?

我有一个火花作业正在运行YARN,它似乎只是挂起而没有做任何计算.

这就是纱线在我做的时候所说的yarn application -status <APPLICATIOM ID>:

Application Report : 
Application-Id : applicationID
Application-Name : test app
Application-Type : SPARK
User : ec2-user
Queue : default
Start-Time : 1491005660004
Finish-Time : 0
Progress : 10%
State : RUNNING
Final-State : UNDEFINED
Tracking-URL : http://<ip>:4040
RPC Port : 0
AM Host : <host ip>
Aggregate Resource Allocation : 36343926 MB-seconds, 9818 vcore-seconds
Log Aggregation Status : NOT_START
Diagnostics : 
Run Code Online (Sandbox Code Playgroud)

并且,当我检查yarn application -list它说它是RUNNING.但我不确定我是否相信.当我去火花webUI时,我只看到一个阶段,整个几个小时我一直在运行它:

web UI

此外,当我点击"阶段"选项卡时,我看不到任何运行:

阶段标签

如何确保我的应用程序实际运行并且 …

hadoop-yarn apache-spark pyspark

8
推荐指数
1
解决办法
2967
查看次数

在`hadoop`中是否存在`find`命令的等价物?

我知道从终端,可以执行find命令来查找文件,例如:

find . -type d -name "*something*" -maxdepth 4 
Run Code Online (Sandbox Code Playgroud)

但是,当我在hadoop文件系统中时,我还没有找到办法做到这一点.

hadoop fs -find ....
Run Code Online (Sandbox Code Playgroud)

抛出错误.

人们如何遍历hadoop中的文件?我正在使用hadoop 2.6.0-cdh5.4.1.

terminal hadoop hdfs hadoop2

7
推荐指数
2
解决办法
9556
查看次数

当其中一个连接字段丢失时,为什么HIVE中的完全外连接会产生奇怪的结果?

我正在比较SQL引擎之间的行为.Oracle有一种我期望从SQL引擎获得完全外连接的行为:

神谕

CREATE TABLE sql_test_a 
( 
    ID         VARCHAR2(4000 BYTE), 
    FIRST_NAME VARCHAR2(200 BYTE), 
    LAST_NAME  VARCHAR2(200 BYTE) 
); 

CREATE TABLE sql_test_b 
( 
    NUM         VARCHAR2(4000 BYTE), 
    FIRST_NAME VARCHAR2(200 BYTE), 
    LAST_NAME  VARCHAR2(200 BYTE) 
); 

INSERT INTO sql_test_a (ID, FIRST_NAME, LAST_NAME) VALUES ('1', 'John', 'Snow'); 

INSERT INTO sql_test_a (ID, FIRST_NAME, LAST_NAME) VALUES ('2', 'Mike', 'Tyson'); 


INSERT INTO sql_test_b (NUM, FIRST_NAME, LAST_NAME) VALUES ('20', 'Mike', 'Tyson'); 
Run Code Online (Sandbox Code Playgroud)

当我执行以下操作时,它会给出预期的结果.结果表包含两行,其中一行包含NULLNUM字段,因为表中没有约翰雪sql_test_b.

SELECT A.FIRST_NAME, A.LAST_NAME, A.ID, B.NUM
FROM
SQL_TEST_A A
FULL OUTER JOIN
SQL_TEST_B B …
Run Code Online (Sandbox Code Playgroud)

null hadoop hive oracle11g full-outer-join

7
推荐指数
1
解决办法
7912
查看次数

为什么选择bin vs src for Cygwin包?

为什么可以为Cygwin包选择bin而不是src?反之亦然?

cygwin packages src bin

6
推荐指数
1
解决办法
5733
查看次数

大写和小写的R文件.区别?

有人给了我一些"R"文件.其中一些使用大写"R"扩展名保存,即".R",有些以小写扩展名保存,即".r".

我可以打开小写的那些,但大写的说允许被拒绝?

我的问题: - 解决这个问题的方法是什么?我无法联系他获取原始文件. - 保存".R"和".r"之间的根本区别是什么?

谢谢.

file-extension r rstudio

6
推荐指数
1
解决办法
1674
查看次数

git pull U,A和D标签:意思?

git pull会偶尔给我发消息如下:

拉动尝试期间gitbash的屏幕截图

我不明白"U","A"和"D"的标签.有人可以告诉我这是什么意思吗?谢谢.

git version-control github git-pull

5
推荐指数
1
解决办法
2549
查看次数