alv*_*vas 17 python algorithm nlp cluster-analysis machine-learning
我从https://github.com/percyliang/brown-cluster运行了棕色聚类算法,还运行了python实现https://github.com/mheilman/tan-clustering.并且它们都为每个唯一令牌提供某种二进制和另一个整数.例如:
0 the 6
10 chased 3
110 dog 2
1110 mouse 2
1111 cat 2
Run Code Online (Sandbox Code Playgroud)
二进制和整数是什么意思?
从第一个链接开始,二进制文件称为a bit-string
,请参阅http://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/
但是,如何从输出中判断出dog and mouse and cat
一个群集并且the and chased
不在同一个群集中?
Łuk*_*ski 17
如果我理解正确,该算法会为您提供一个树,您需要在某个级别截断它以获得群集.如果是那些位串,你应该只取第一个L
字符.
例如,在第二个字符处剪切会为您提供两个聚类
10 chased
11 dog
11 mouse
11 cat
Run Code Online (Sandbox Code Playgroud)
在第三个角色你得到
110 dog
111 mouse
111 cat
Run Code Online (Sandbox Code Playgroud)
切割策略虽然是另一个主题.