我正在将 KL-divergence 的 SciPy 实现([ http://docs.scipy.org/doc/scipy-dev/reference/generated/scipy.stats.entropy.html])用于两个不同的 numpy 数组。
第一个,假设“base_freq”的标准长度为 2000 第二个,“test_freq”长度可以根据样本采用不同的值。所以假设它的长度是 8000。
当这两个长度不相同时,如何计算 KL 散度???
我的想法是将第二个数组 ( "test_freq" )分解为多个长度为 2000 的数组。但是这是怎么做到的??当“test_freq”获得长度为 250 的样本时会发生什么?
我有一个包含三列的数据框.
data['subdomain'], data['domain'], data ['IP']
Run Code Online (Sandbox Code Playgroud)
我想为子域的每个元素构建一个二分图,它对应于同一个域,权重是它对应的次数.
例如,我的数据可能是:
subdomain , domain, IP
test1, example.org, 10.20.30.40
something, site.com, 30.50.70.90
test2, example.org, 10.20.30.41
test3, example.org, 10.20.30.42
else, website.com, 90.80.70.10
Run Code Online (Sandbox Code Playgroud)
我想要一个二分图表明它example.org的权重为3,因为它有3个边缘等.我想将这些结果组合成一个新的数据帧.
我一直在尝试使用networkX,但我没有经验,特别是在需要计算边缘时.
B=nx.Graph()
B.add_nodes_from(data['subdomain'],bipartite=0)
B.add_nodes_from(data['domain'],bipartite=1)
B.add_edges_from (...)
Run Code Online (Sandbox Code Playgroud)