我有一个稀疏矩阵A(密集等于10*3),例如:
print type(A)
<class scipy.sparse.csr.csr_matrix>
print A
(0, 0) 0.0160478743808
(0, 2) 0.0317314165078
(1, 2) 0.0156596521648
(1, 0) 0.0575683686558
(2, 2) 0.0107481166871
(3, 0) 0.0150580924929
(3, 2) 0.0297743235876
(4, 0) 0.0161931803955
(4, 2) 0.0320187296788
(5, 2) 0.0106034409766
(5, 0) 0.0128109177074
(6, 2) 0.0105766993238
(6, 0) 0.0127786088452
(7, 2) 0.00926522256063
(7, 0) 0.0111941023699
Run Code Online (Sandbox Code Playgroud)
每列的最大值为:
print A.max(axis=0)
(0, 0) 0.0575683686558
(0, 2) 0.0320187296788
Run Code Online (Sandbox Code Playgroud)
我想得到与列值对应的索引.我知道的
A.getcol(i).tolist()Run Code Online (Sandbox Code Playgroud)将返回每个列的列表,允许我使用argmax()函数,但这种方式真的很慢.我想知道有什么下降的方法吗? 我是 pyspark 的新手。从 pyspark 想知道是否有一些函数可以获取 HDFS 折叠修改日期?
在pyspark中:
def get_user_folder_update_date():
magic()
return update_time
print get_user_folder_update_date()
2017-12-20
Run Code Online (Sandbox Code Playgroud)