通过关注者排名的推文中找到主题的好算法？

Question

通过关注者排名的推文中找到主题的好算法？

Mav*_*ick 5 python algorithm r cluster-analysis data-mining

我是数据挖掘和实验的新手.

假设我有N个推特用户,我想要找的是他们正在撰写的整体主题(基于推文).
然后,如果该用户拥有更高的粉丝,我想为每个主题赋予更高的权重.

然后我想合并所有主题,如果有足够相似但仍然保持Twitter计数的权重.

所以基本上是按权限排名的"重要"主题列表(用户的推特数量)

例如,像news.google.com,但排名将基于负责主题的Twitter粉丝.

我更喜欢python中的一些东西,因为那是我最熟悉的语言.

有任何想法吗？

谢谢

编辑:这是我正在尝试做的一个很好的例子(但使用差异数据) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858

基本上分析各种数据及其相互关系:工作类别和每个人的年龄或单词类别和朋友数量,如本例所示.

我将在哪里开始解决这个问题并生成这样的图表？

Answer 1

Jor*_*eys 4

一般来说：R 有一些专门针对文本挖掘和数据挖掘的包，提供了广泛的技术。我不了解 Python 中的此类包，但这并不意味着它们不存在。我只是不会自己全部实现，它比乍一看要复杂一些。

您必须考虑一些事情：

定义“主题”：这是他们使用的标签吗？你对标签进行分组吗？您的清单是有限的还是无限的？
定义“一般主题”：这是最常用的主题吗？你如何处理关系？如果用户写了大约 10 个主题，那么怎么办？
定义“权重”：是否等于用户数量？平方根？某些类别？

如果您对此有一个大概的了解，您可以开始使用tm 包以可行的格式提取所有信息。该包基于矩阵和元数据对象。这些允许您获得不同主题的加权频率，前提是您已经定义了您认为的主题。您还可以使用不同的加权函数来获得您想要的。手册在这里。但如果您不确定自己在做什么，也请访问crossvalidated.com以获得额外指导。这实际上更多的是关于数据挖掘的问题，而不是关于编程的问题。

更不用说当每个条目最多只有 160 个字符时，文本挖掘会变得多么困难。 (3认同)

归档时间：	15 年，1 月前
查看次数：	644 次
最近记录：	14 年，3 月前