Mav*_*ick 5 python algorithm r cluster-analysis data-mining
我是数据挖掘和实验的新手.
假设我有N个推特用户,我想要找的是他们正在撰写的整体主题(基于推文).
然后,如果该用户拥有更高的粉丝,我想为每个主题赋予更高的权重.
然后我想合并所有主题,如果有足够相似但仍然保持Twitter计数的权重.
所以基本上是按权限排名的"重要"主题列表(用户的推特数量)
例如,像news.google.com,但排名将基于负责主题的Twitter粉丝.
我更喜欢python中的一些东西,因为那是我最熟悉的语言.
有任何想法吗?
谢谢
编辑:这是我正在尝试做的一个很好的例子(但使用差异数据) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858
基本上分析各种数据及其相互关系:工作类别和每个人的年龄或单词类别和朋友数量,如本例所示.
我将在哪里开始解决这个问题并生成这样的图表?
一般来说:R 有一些专门针对文本挖掘和数据挖掘的包,提供了广泛的技术。我不了解 Python 中的此类包,但这并不意味着它们不存在。我只是不会自己全部实现,它比乍一看要复杂一些。
您必须考虑一些事情:
如果您对此有一个大概的了解,您可以开始使用tm 包以可行的格式提取所有信息。该包基于矩阵和元数据对象。这些允许您获得不同主题的加权频率,前提是您已经定义了您认为的主题。您还可以使用不同的加权函数来获得您想要的。手册在这里。但如果您不确定自己在做什么,也请访问crossvalidated.com以获得额外指导。这实际上更多的是关于数据挖掘的问题,而不是关于编程的问题。