小编KEX*_*ANG的帖子

python稀疏矩阵获取最大值和索引

我有一个稀疏矩阵A(密集等于10*3),例如:

print type(A)
<class scipy.sparse.csr.csr_matrix>

print A
(0, 0)  0.0160478743808
(0, 2)  0.0317314165078
(1, 2)  0.0156596521648
(1, 0)  0.0575683686558
(2, 2)  0.0107481166871
(3, 0)  0.0150580924929
(3, 2)  0.0297743235876
(4, 0)  0.0161931803955
(4, 2)  0.0320187296788
(5, 2)  0.0106034409766
(5, 0)  0.0128109177074
(6, 2)  0.0105766993238
(6, 0)  0.0127786088452
(7, 2)  0.00926522256063
(7, 0)  0.0111941023699
Run Code Online (Sandbox Code Playgroud)

每列的最大值为:

print A.max(axis=0)
(0, 0)  0.0575683686558
(0, 2)  0.0320187296788
Run Code Online (Sandbox Code Playgroud)

我想得到与列值对应索引.我知道的

A.getcol(i).tolist()
Run Code Online (Sandbox Code Playgroud)将返回每个列的列表,允许我使用argmax()函数,但这种方式真的很慢.我想知道有什么下降的方法吗?

python csr scipy sparse-matrix

5
推荐指数
1
解决办法
3198
查看次数

Pyspark 检查 hdfs 文件夹修改日期

我是 pyspark 的新手。从 pyspark 想知道是否有一些函数可以获取 HDFS 折叠修改日期?

例如在 HDFS 中: 在此处输入图片说明

在pyspark中:

def get_user_folder_update_date():
    magic()
    return update_time

print get_user_folder_update_date()
2017-12-20
Run Code Online (Sandbox Code Playgroud)

hdfs pyspark

0
推荐指数
1
解决办法
1631
查看次数

标签 统计

csr ×1

hdfs ×1

pyspark ×1

python ×1

scipy ×1

sparse-matrix ×1