Sup*_*est 7 language-agnostic statistics text-mining markov-models
假设我已从论坛中收集了帖子.然后我删除了所有用户名和签名,所以现在我只知道哪个帖子在哪个帖子中但不是谁发布了什么,甚至有多少作者(尽管作者的数量明显不能大于文本的数量) .
我想使用马尔可夫模型(看看哪些单词/字母跟随哪些)来弄清楚有多少人使用过这个论坛,哪些帖子是由同一个人写的.为了大大简化,也许一个人倾向于说"他是",而另一个人倾向于说"他是" - 我说的是模型与这种基本逻辑一起工作.
请注意数据有一些明显的问题:有些帖子可能很短(一个单词答案).它们可能是重复的(引用彼此或使用流行的论坛流行语).个别文本不是很长.
有人可能会怀疑一个人连续发帖很少,或者很可能人们更有可能在他们已发布的帖子中发帖.利用这个是可选的.
我们假设帖子是明文,没有标记,论坛上的每个人都使用英语.
我想获得的所有文本的距离矩阵T_i
,从而D_ij
是文字的可能性T_i
和文字T_j
是由同一作者写的,基于文字/字符模式.我打算使用这个距离矩阵来聚类文本,并提出诸如"撰写本文的人撰写了哪些其他文本?"之类的问题.
我将如何实际实现这一目标?我需要隐藏的MM吗?如果是这样,隐藏的状态是什么?我理解如何在文本上训练MM然后生成类似的文本(例如,在仙境中生成爱丽丝)但是在我训练频率树之后,我如何用它检查文本以获得它生成的概率那棵树?在构建树时,我应该看一下字母或单词吗?
我的建议是把距离矩阵的事情放在一边,首先考虑概率模型 P(text |author)。构建该模型是您工作中最困难的部分;一旦你有了它,你就可以通过贝叶斯规则计算 P(作者 | 文本)。不要本末倒置:模型可能涉及也可能不涉及各种距离度量或矩阵,但不要担心这一点,只需让它从模型中剔除即可。