自然语言处理 - 单词对齐

Question

我正在寻找单词对齐工具和算法.
我正在处理双语英语 - 印地语文本,目前正在进行中

你能否建议任何其他语言无关的算法/工具,它可以实现并行英语印地语语料库及其评估的统计词对齐.
有些工具最适合某些语言; 你能否告诉我这是多么真实,如果是的话,你能不能提供一个更适合亚洲语言如印地语的例子.反对我不应该使用这些语言的例子也是受欢迎的.

我听过一些关于Uplug字对齐器的信息 ......有人能告诉我这个工具对我的用途是否有用.

谢谢.. :)

Answer 1

在伯克利定位仪是非常好的.通过对IBM字对齐模型进行联合培训,它可以比GIZA ++等旧版软件包获得更低的对齐错误率(AER).

它还支持一些更高级的功能,例如语法失真(即,使用解析树信息来获得更好的对齐).为此,您只需要为其中一个语言对解析树.所以,你应该可以做印地语< - >英语,因为有很多免费提供和良好的英语解析器.

如果您决定不使用Berkeley Aligner,您应该只使用GIZA ++.多年来,它基本上是机器翻译社区中的标准单词对齐器.