小编Ali*_*Ali的帖子

YARN MapReduce 作业如何处理容器故障？

YARN 中如何处理软件/硬件故障？具体来说，如果容器发生故障/崩溃，会发生什么？

hadoop mapreduce hadoop-yarn hadoop2

Ali*_*Ali

lucky-day

3
推荐指数

1
解决办法

4525
查看次数

Python将多个字符串传递给单个命令行参数

我是Python的新手，几乎不了解列表和元组。我有一个要执行的程序，它将几个值作为输入参数。以下是输入参数列表

parser = argparse.ArgumentParser()
parser.add_argument("server")
parser.add_argument("outdir")
parser.add_argument("dir_remove", help="Directory prefix to remove")
parser.add_argument("dir_prefix", help="Directory prefix to prefix")
parser.add_argument("infile", default=[], action="append")
options = parser.parse_args()

Run Code Online (Sandbox Code Playgroud)

该程序可以使用以下命令正常运行

python prod2dev.py mysrv results D:\Automations D:\MyProduction Automation_PP_CVM.xml

Run Code Online (Sandbox Code Playgroud)

但是看一下代码，似乎代码可以接受参数“ infile”的多个文件名。我尝试以下传递多个文件名，但是没有一个起作用。

python prod2dev.py mysrv results D:\Automations D:\MyProduction "Automation_PP_CVM.xml, Automation_PT_CVM.xml"

python prod2dev.py mysrv results D:\Automations D:\MyProduction ["Automation_PP_CVM.xml", "Automation_PT_CVM.xml"]

python prod2dev.py mysrv results D:\Automations D:\MyProduction ['Automation_PP_CVM.xml', 'Automation_PT_CVM.xml']

python prod2dev.py mysrv results D:\Automations D:\MyProduction ['"Automation_PP_CVM.xml"', '"Automation_PT_CVM.xml"']

Run Code Online (Sandbox Code Playgroud)

下面的代码显然遍历了列表

infile = windowsSucksExpandWildcards(options.infile)
 for filename in infile:
    print(filename)
    outfilename = os.path.join(options.outdir, os.path.split(filename)[1])
    if os.path.exists(outfilename):
        raise …

Run Code Online (Sandbox Code Playgroud)

python traversal list command-line-arguments python-3.x

Ali*_*Ali

2016 04-19

3
推荐指数

1
解决办法

3041
查看次数

PySpark Dataframe 根据函数返回值创建新列

我有一个数据框，我想根据函数返回的值添加一个新列。此函数的参数是来自同一数据帧的四列。这个和这个有点类似于我想要的，但没有回答我的问题。

这是我的数据框（有更多的列然后这四个）

 + ------ + ------ + ------ + ------ +
 | lat1   | lng1   | lat2   | lng2   |
 + ------ + ------ + ------ + ------ +
 | -32.92 | 151.80 | -32.89 | 151.71 |
 | -32.92 | 151.80 | -32.89 | 151.71 |
 | -32.92 | 151.80 | -32.89 | 151.71 |
 | -32.92 | 151.80 | -32.89 | 151.71 |
 | -32.92 | 151.80 | -32.89 | 151.71 |
 + ------ …

Run Code Online (Sandbox Code Playgroud)

python calculated-columns dataframe apache-spark pyspark

Ali*_*Ali

2018 11-22

3
推荐指数

2
解决办法

7554
查看次数

PySpark 如何找到合适数量的集群

当我使用 Python 和 sklearn 时，我绘制肘部方法以找到合适数量的 KMean 集群。当我在 PySpark 工作时，我也想做同样的事情。我知道由于 Spark 的分布式特性，PySpark 的功能有限，但是，有没有办法获得这个数字？

我正在使用以下代码绘制肘部使用 Elbow 方法从 sklearn.cluster import KMeans 中找到最佳聚类数

wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10, random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

plt.plot(range(1, 11), wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.show()

Run Code Online (Sandbox Code Playgroud)

python machine-learning k-means apache-spark pyspark

Ali*_*Ali

lucky-day

3
推荐指数

1
解决办法

4990
查看次数

Java Regex用于标记字符串

这是我的源字符串

substrb ( userenv ( 'CLIENT_INFO' ) , 1 , 1 ) , '' , null , substrb ( 'some_text'  , 1 , 10 )

Run Code Online (Sandbox Code Playgroud)

我想以下面的形式对其进行标记

[1] : substrb ( userenv ( 'CLIENT_INFO' ) , 1 , 1 )
[2] : ''
[3] : null
[4] : substrb ( 'some_text'  , 1 , 10 )

Run Code Online (Sandbox Code Playgroud)

任何想法怎么做？

谢谢

java regex

Ali*_*Ali

lucky-day

0
推荐指数

1
解决办法

270
查看次数

标签统计

python ×3

apache-spark ×2

pyspark ×2

calculated-columns ×1

command-line-arguments ×1

dataframe ×1

hadoop ×1

hadoop-yarn ×1

hadoop2 ×1

java ×1

k-means ×1

list ×1

machine-learning ×1

mapreduce ×1

python-3.x ×1

regex ×1

traversal ×1

YARN MapReduce 作业如何处理容器故障？

Python将多个字符串传递给单个命令行参数

PySpark Dataframe 根据函数返回值创建新列

PySpark 如何找到合适数量的集群

Java Regex用于标记字符串

标签 统计

小编Ali_Ali的帖子

标签统计