小编Ali*_*Ali的帖子

YARN MapReduce 作业如何处理容器故障?

YARN 中如何处理软件/硬件故障?具体来说,如果容器发生故障/崩溃,会发生什么?

hadoop mapreduce hadoop-yarn hadoop2

3
推荐指数
1
解决办法
4525
查看次数

Python将多个字符串传递给单个命令行参数

我是Python的新手,几乎不了解列表和元组。我有一个要执行的程序,它将几个值作为输入参数。以下是输入参数列表

parser = argparse.ArgumentParser()
parser.add_argument("server")
parser.add_argument("outdir")
parser.add_argument("dir_remove", help="Directory prefix to remove")
parser.add_argument("dir_prefix", help="Directory prefix to prefix")
parser.add_argument("infile", default=[], action="append")
options = parser.parse_args()
Run Code Online (Sandbox Code Playgroud)

该程序可以使用以下命令正常运行

python prod2dev.py mysrv results D:\Automations D:\MyProduction Automation_PP_CVM.xml
Run Code Online (Sandbox Code Playgroud)

但是看一下代码,似乎代码可以接受参数“ infile”的多个文件名。我尝试以下传递多个文件名,但是没有一个起作用。

python prod2dev.py mysrv results D:\Automations D:\MyProduction "Automation_PP_CVM.xml, Automation_PT_CVM.xml"

python prod2dev.py mysrv results D:\Automations D:\MyProduction ["Automation_PP_CVM.xml", "Automation_PT_CVM.xml"]

python prod2dev.py mysrv results D:\Automations D:\MyProduction ['Automation_PP_CVM.xml', 'Automation_PT_CVM.xml']

python prod2dev.py mysrv results D:\Automations D:\MyProduction ['"Automation_PP_CVM.xml"', '"Automation_PT_CVM.xml"']
Run Code Online (Sandbox Code Playgroud)

下面的代码显然遍历了列表

infile = windowsSucksExpandWildcards(options.infile)
 for filename in infile:
    print(filename)
    outfilename = os.path.join(options.outdir, os.path.split(filename)[1])
    if os.path.exists(outfilename):
        raise …
Run Code Online (Sandbox Code Playgroud)

python traversal list command-line-arguments python-3.x

3
推荐指数
1
解决办法
3041
查看次数

PySpark Dataframe 根据函数返回值创建新列

我有一个数据框,我想根据函数返回的值添加一个新列。此函数的参数是来自同一数据帧的四列。这个这个有点类似于我想要的,但没有回答我的问题。

这是我的数据框(有更多的列然后这四个)

 + ------ + ------ + ------ + ------ +
 | lat1   | lng1   | lat2   | lng2   |
 + ------ + ------ + ------ + ------ +
 | -32.92 | 151.80 | -32.89 | 151.71 |
 | -32.92 | 151.80 | -32.89 | 151.71 |
 | -32.92 | 151.80 | -32.89 | 151.71 |
 | -32.92 | 151.80 | -32.89 | 151.71 |
 | -32.92 | 151.80 | -32.89 | 151.71 |
 + ------ …
Run Code Online (Sandbox Code Playgroud)

python calculated-columns dataframe apache-spark pyspark

3
推荐指数
2
解决办法
7554
查看次数

PySpark 如何找到合适数量的集群

当我使用 Python 和 sklearn 时,我绘制肘部方法以找到合适数量的 KMean 集群。当我在 PySpark 工作时,我也想做同样的事情。我知道由于 Spark 的分布式特性,PySpark 的功能有限,但是,有没有办法获得这个数字?

我正在使用以下代码绘制肘部使用 Elbow 方法从 sklearn.cluster import KMeans 中找到最佳聚类数

wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10, random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

plt.plot(range(1, 11), wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.show()
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

python machine-learning k-means apache-spark pyspark

3
推荐指数
1
解决办法
4990
查看次数

Java Regex用于标记字符串

这是我的源字符串

substrb ( userenv ( 'CLIENT_INFO' ) , 1 , 1 ) , '' , null , substrb ( 'some_text'  , 1 , 10 ) 
Run Code Online (Sandbox Code Playgroud)

我想以下面的形式对其进行标记

[1] : substrb ( userenv ( 'CLIENT_INFO' ) , 1 , 1 )
[2] : ''
[3] : null
[4] : substrb ( 'some_text'  , 1 , 10 )
Run Code Online (Sandbox Code Playgroud)

任何想法怎么做?

谢谢

java regex

0
推荐指数
1
解决办法
270
查看次数