小编Iol*_*kos的帖子

python - 不同长度的 numpy 数组上的 KL 散度

我正在将 KL-divergence 的 SciPy 实现([ http://docs.scipy.org/doc/scipy-dev/reference/generated/scipy.stats.entropy.html])用于两个不同的 numpy 数组。

第一个,假设“base_freq”的标准长度为 2000 第二个,“test_freq”长度可以根据样本采用不同的值。所以假设它的长度是 8000。

当这两个长度不相同时,如何计算 KL 散度???

我的想法是将第二个数组 ( "test_freq" )分解为多个长度为 2000 的数组。但是这是怎么做到的??当“test_freq”获得长度为 250 的样本时会发生什么?

python arrays numpy scipy

5
推荐指数
1
解决办法
3783
查看次数

从python数据帧的列构造二分图

我有一个包含三列的数据框.

data['subdomain'],  data['domain'], data ['IP']
Run Code Online (Sandbox Code Playgroud)

我想为子域的每个元素构建一个二分图,它对应于同一个域,权重是它对应的次数.

例如,我的数据可能是:

subdomain , domain, IP
test1, example.org, 10.20.30.40
something, site.com, 30.50.70.90
test2, example.org, 10.20.30.41
test3, example.org, 10.20.30.42
else, website.com, 90.80.70.10
Run Code Online (Sandbox Code Playgroud)

我想要一个二分图表明它example.org的权重为3,因为它有3个边缘等.我想将这些结果组合成一个新的数据帧.

我一直在尝试使用networkX,但我没有经验,特别是在需要计算边缘时.

B=nx.Graph()
B.add_nodes_from(data['subdomain'],bipartite=0)
B.add_nodes_from(data['domain'],bipartite=1)
B.add_edges_from (...)
Run Code Online (Sandbox Code Playgroud)

python graph networkx dataframe

3
推荐指数
1
解决办法
2979
查看次数

标签 统计

python ×2

arrays ×1

dataframe ×1

graph ×1

networkx ×1

numpy ×1

scipy ×1