小编Iol*_*kos的帖子

python - 不同长度的 numpy 数组上的 KL 散度

我正在将 KL-divergence 的 SciPy 实现（[ http://docs.scipy.org/doc/scipy-dev/reference/generated/scipy.stats.entropy.html]）用于两个不同的 numpy 数组。

第一个，假设“base_freq”的标准长度为 2000 第二个，“test_freq”长度可以根据样本采用不同的值。所以假设它的长度是 8000。

当这两个长度不相同时，如何计算 KL 散度？？？

我的想法是将第二个数组 ( "test_freq" )分解为多个长度为 2000 的数组。但是这是怎么做到的？？当“test_freq”获得长度为 250 的样本时会发生什么？

python arrays numpy scipy

Iol*_*kos

lucky-day

5
推荐指数

1
解决办法

3783
查看次数

从python数据帧的列构造二分图

我有一个包含三列的数据框.

data['subdomain'],  data['domain'], data ['IP']

Run Code Online (Sandbox Code Playgroud)

我想为子域的每个元素构建一个二分图,它对应于同一个域,权重是它对应的次数.

例如,我的数据可能是:

subdomain , domain, IP
test1, example.org, 10.20.30.40
something, site.com, 30.50.70.90
test2, example.org, 10.20.30.41
test3, example.org, 10.20.30.42
else, website.com, 90.80.70.10

Run Code Online (Sandbox Code Playgroud)

我想要一个二分图表明它example.org的权重为3,因为它有3个边缘等.我想将这些结果组合成一个新的数据帧.

我一直在尝试使用networkX,但我没有经验,特别是在需要计算边缘时.

B=nx.Graph()
B.add_nodes_from(data['subdomain'],bipartite=0)
B.add_nodes_from(data['domain'],bipartite=1)
B.add_edges_from (...)

Run Code Online (Sandbox Code Playgroud)

python graph networkx dataframe

Iol*_*kos

2015 06-16

3
推荐指数

1
解决办法

2979
查看次数

标签统计

python ×2

arrays ×1

dataframe ×1

graph ×1

networkx ×1

numpy ×1

scipy ×1

python - 不同长度的 numpy 数组上的 KL 散度

从python数据帧的列构造二分图

标签 统计

小编Iol_kos的帖子

标签统计