为什么使用Europarl对摩西有如此糟糕的表现?

sco*_*ozy 3 corpus machine-translation moses bleu

我已经开始和摩西一起玩,并试图制作我认为相当标准的基线系统.我基本上遵循了网站上描述的步骤,但不是使用news-commentary我使用Europarl v7进行培训,使用WMT 2006开发套件和原始的Europarl常用测试.我的想法是做一些类似于Le Nagard&Koehn(2010)的事情,他们在基线英语到法语系统中获得了.68的BLEU分数.

总而言之,我的工作流程或多或少是这样的:

  1. tokenizer.perl 关于一切
  2. lowercase.perl(而不是truecase)
  3. clean-corpus-n.perl
  4. 仅使用Europarl v7的法国数据训练IRSTLM模型
  5. train-model.perl 完全如描述
  6. mert-moses.pl 使用WMT 2006开发
  7. 如上所述测试和测量性能

由此产生的BLEU得分为.26 ......这引出了两个问题:

  • 这是这种基线系统的典型BLEU分数吗?我意识到Europarl是一个非常小的语料库来训练单语言模型,尽管这是他们在摩西网站上做事的方式.
  • 对于刚开始使用SMT和/或摩西的人来说,我是否有任何典型的陷阱?或者像Le Nagard和Koehn这样的研究人员是否以与摩西网站上描述的方式不同的方式构建他们的基线系统,例如使用一些更大的,未公开的语料库来训练语言模型?

jvd*_*gae 5

只是把事情放在首位:你所指的.68与BLEU无关.

我的想法是做一些类似于Le Nagard&Koehn(2010)的事情,他们在基线英语到法语系统中获得了.68的BLEU分数.

您引用的文章仅指出68%的代词(使用共同参考分辨率)被正确翻译.它没有提到获得.68 BLEU得分.事实上,没有给出分数,可能是因为论文提出的质量改进无法用统计显着性来衡量(如果你只改进少量的词,就会发生很多).因此,本文仅使用代词的手动评估:

更好的评估指标是正确翻译的代词的数量.这需要手动检查翻译结果.

这就是.68发挥作用的地方.

现在回答您关于.26的问题:

这是这种基线系统的典型BLEU分数吗?我意识到Europarl是一个非常小的语料库来训练单语言模型,尽管这是他们在摩西网站上做事的方式.

是的.您可以在http://matrix.statmt.org/找到WMT语言对的性能

对于刚开始使用SMT和/或摩西的人来说,我是否有任何典型的陷阱?或者像Le Nagard和Koehn这样的研究人员是否以与摩西网站上描述的方式不同的方式构建他们的基线系统,例如使用一些更大的,未公开的语料库来训练语言模型?

我假设你正确训练了你的系统.关于"未公开的语料库"问题:学术界的成员通常表示每个实验,哪些数据集用于培训测试和调整,至少在同行评审的出版物中.唯一的例外是WMT任务(例如参见http://www.statmt.org/wmt14/translation-task.html),如果系统参与无约束轨道,则可以使用私有语料库.但即便如此,人们也会提到他们使用了额外的数据.