alv*_*vas 17 python algorithm nlp cluster-analysis machine-learning
我从https://github.com/percyliang/brown-cluster运行了棕色聚类算法,还运行了python实现https://github.com/mheilman/tan-clustering.并且它们都为每个唯一令牌提供某种二进制和另一个整数.例如:
0 the 6
10 chased 3
110 dog 2
1110 mouse 2
1111 cat 2
Run Code Online (Sandbox Code Playgroud)
二进制和整数是什么意思?
从第一个链接开始,二进制文件称为a bit-string,请参阅http://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/
但是,如何从输出中判断出dog and mouse and cat一个群集并且the and chased不在同一个群集中?
Łuk*_*ski 17
如果我理解正确,该算法会为您提供一个树,您需要在某个级别截断它以获得群集.如果是那些位串,你应该只取第一个L字符.
例如,在第二个字符处剪切会为您提供两个聚类
10 chased
11 dog
11 mouse
11 cat
Run Code Online (Sandbox Code Playgroud)
在第三个角色你得到
110 dog
111 mouse
111 cat
Run Code Online (Sandbox Code Playgroud)
切割策略虽然是另一个主题.