通过关注者排名的推文中找到主题的好算法?

Mav*_*ick 5 python algorithm r cluster-analysis data-mining

我是数据挖掘和实验的新手.

假设我有N个推特用户,我想要找的是他们正在撰写的整体主题(基于推文).
然后,如果该用户拥有更高的粉丝,我想为每个主题赋予更高的权重.

然后我想合并所有主题,如果有足够相似但仍然保持Twitter计数的权重.

所以基本上是按权限排名的"重要"主题列表(用户的推特数量)

例如,像news.google.com,但排名将基于负责主题的Twitter粉丝.

我更喜欢python中的一些东西,因为那是我最熟悉的语言.

有任何想法吗?

谢谢

编辑:这是我正在尝试做的一个很好的例子(但使用差异数据) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858

基本上分析各种数据及其相互关系:工作类别和每个人的年龄或单词类别和朋友数量,如本例所示.

我将在哪里开始解决这个问题并生成这样的图表?

Jor*_*eys 4

一般来说:R 有一些专门针对文本挖掘和数据挖掘的包,提供了广泛的技术。我不了解 Python 中的此类包,但这并不意味着它们不存在。我只是不会自己全部实现,它比乍一看要复杂一些。

您必须考虑一些事情:

  • 定义“主题”:这是他们使用的标签吗?你对标签进行分组吗?您的清单是有限的还是无限的?
  • 定义“一般主题”:这是最常用的主题吗?你如何处理关系?如果用户写了大约 10 个主题,那么怎么办?
  • 定义“权重”:是否等于用户数量?平方根?某些类别?

如果您对此有一个大概的了解,您可以开始使用tm 包以可行的格式提取所有信息。该包基于矩阵和元数据对象。这些允许您获得不同主题的加权频率,前提是您已经定义了您认为的主题。您还可以使用不同的加权函数来获得您想要的。手册在这里。但如果您不确定自己在做什么,也请访问crossvalidated.com以获得额外指导。这实际上更多的是关于数据挖掘的问题,而不是关于编程的问题。

  • 更不用说当每个条目最多只有 160 个字符时,文本挖掘会变得多么困难。 (3认同)