Brown聚类算法输出意味着什么?

alv*_*vas 17 python algorithm nlp cluster-analysis machine-learning

我从https://github.com/percyliang/brown-cluster运行了棕色聚类算法,还运行了python实现https://github.com/mheilman/tan-clustering.并且它们都为每个唯一令牌提供某种二进制和另一个整数.例如:

0        the        6
10        chased        3
110        dog        2
1110        mouse        2
1111        cat        2
Run Code Online (Sandbox Code Playgroud)

二进制和整数是什么意思?

从第一个链接开始,二进制文件称为a bit-string,请参阅http://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/

但是,如何从输出中判断出dog and mouse and cat一个群集并且the and chased不在同一个群集中?

Łuk*_*ski 17

如果我理解正确,该算法会为您提供一个树,您需要在某个级别截断它以获得群集.如果是那些位串,你应该只取第一个L字符.

例如,在第二个字符处剪切会为您提供两个聚类

10           chased     

11           dog        
11           mouse      
11           cat        
Run Code Online (Sandbox Code Playgroud)

在第三个角色你得到

110           dog        

111           mouse      
111           cat        
Run Code Online (Sandbox Code Playgroud)

切割策略虽然是另一个主题.