小编Mos*_* Xu的帖子

在Gensim LDA中记录主题分布

我使用玩具语料库得出了一个LDA主题模型,如下所示:

documents = ['Human machine interface for lab abc computer applications',
             'A survey of user opinion of computer system response time',
             'The EPS user interface management system',
             'System and human system engineering testing of EPS',
             'Relation of user perceived response time to error measurement',
             'The generation of random binary unordered trees',
             'The intersection graph of paths in trees',
             'Graph minors IV Widths of trees and well quasi ordering',
             'Graph minors A survey']

texts = [[word for word in document.lower().split()] for …
Run Code Online (Sandbox Code Playgroud)

python lda gensim

17
推荐指数
2
解决办法
1万
查看次数

networkx和igraph之间的接口

我一直在使用networkx已经有一段时间了,直到最近我开始研究社区检测时,它一直很好地服务于我的目的.相比之下,igraph Python包似乎有更广泛的社区检测方法实现(甚至与添加了Thomas Aynaud社区包的networkx相比).我只是想知道是否有任何现有的,经过测试的API可以轻松地将networkx图转换为igraph结构,所以我可以利用这个领域提供的功率igraph?

非常感谢您的回答.

python igraph networkx

12
推荐指数
3
解决办法
6557
查看次数

在TF和TF*IDF向量上执行Chi-2特征选择

我正在尝试一些文本分类任务的Chi-2特征选择.我理解Chi-2测试检查B/T两个分类变量的依赖关系,所以如果我们用二进制BOW矢量表示对二进制文本分类问题执行Chi-2特征选择,每个(特征,类)的每个Chi-2测试对将是一个非常直接的Chi-2测试,具有1个自由度.

引自文档:http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2,

该分数可用于选择具有来自X的χ2(卡方)统计值的最高值的n_features特征,其必须包含相对于类的布尔值或频率(例如,文档分类中的术语计数).

在我看来,我们也可以在DF(字数)矢量表示上执行Chi-2特征选择.我的第一个问题是:sklearn如何将整数值特征离散化为分类?

我的第二个问题与第一个问题类似.从这里的演示代码:http://scikit-learn.sourceforge.net/dev/auto_examples/document_classification_20newsgroups.html

在我看来,我们也可以在TF*IDF矢量表示上执行Chi-2特征选择.sklearn如何在实值特征上执行Chi-2特征选择?

提前感谢您的善意建议!

machine-learning feature-selection scikit-learn

11
推荐指数
1
解决办法
6805
查看次数

根据NetworkX中的某些边缘属性有效提取子图

通过指定节点列表,可以轻松地从NetworkX图中提取子图,但我找不到通过边执行子图提取的有效方法.例如,提取子图由权重超过某个用户定义阈值的边组成.

目前我正在以下列方式进行:

## extracts all edges satisfy the weight threshold (my_network is directed):
eligible_edges = [(from_node,to_node,edge_attributes) for from_node,to_node,edge_attributes in my_network.edges(data=True) if edge_attributes['weight'] > threshold]
new_network = NetworkX.DiGraph()
new_network.add_edges_from(eligible_edges)
Run Code Online (Sandbox Code Playgroud)

有一个更好的方法吗?

谢谢你的回答.

python networkx

8
推荐指数
1
解决办法
2543
查看次数

在NetworkX中测试图表相等

测试两个NetworkX图是否相同(即每个节点上的相同节点集,相同的节点属性,每个边上的相同边集和相同的边属性),最有效的方法是什么?假设我们知道这两个图是同一个类.

谢谢你的回答.

python networkx

8
推荐指数
1
解决办法
3621
查看次数

在Python中使用幂律来验证经验数据

我正在尝试使用powerlaw模块将幂律拟合到经验数据.我创建了以下数据,这些数据遵循指数2的幂律分布:

x = range(1,1000)
y = []

for i in x:
    y.append(i**(-2))
Run Code Online (Sandbox Code Playgroud)

我期望拟合幂定律的指数为2.然而,得到的指数偏离理论值很多:

    fitted_pl = powerlaw.Fit(y)

    fitted_pl.alpha
    Out[115]: 1.4017584065981563
Run Code Online (Sandbox Code Playgroud)

你能告诉我为什么会这样,或者指出我在这里做错了什么?

谢谢你的回答!

python power-law

7
推荐指数
1
解决办法
5280
查看次数