标签: machine-translation

文本摘要评估 - BLEU与ROUGE

通过两个不同的汇总系统(sys1和sys2)和相同的参考汇总的结果,我用BLEU和ROUGE对它们进行了评估.问题是:sys1的所有ROUGE分数都高于sys2(ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4,ROUGE-L,ROUGE-SU4 ......)但是sys1的BLEU分数较低比sys2的BLEU得分(相当多).

所以我的问题是:ROUGE和BLEU都是基于n-gram来衡量系统摘要和人类摘要之间的相似之处.那么为什么评价结果会有差异呢？ROUGE和BLEU解释这个问题的主要区别是什么？

任何意见和建议将不胜感激!谢谢!

text-processing nlp machine-translation bleu rouge

Che*_*ole

2016 06-27

18
推荐指数

3
解决办法

1万
查看次数

有关于giza ++的教程吗？

"自述"文件中的网址无效(http://www.fjoch.com/mkcls.html和http://www.fjoch.com/GIZA++.html).关于吉萨++有一个很好的教程吗？或者是否有一些具有完整文档的替代方案？

nlp machine-translation giza++

Int*_*ear

2014 02-08

17
推荐指数

1
解决办法

1万
查看次数

谷歌翻译iframe解决方法

我正在使用谷歌翻译工具翻译网页,我在这个页面上也有一个iframe,这显然没有翻译成页面.

是否有一种解决方法,你们任何人都知道,所以我也可以翻译iframe？

javascript jquery google-translate machine-translation

Jac*_*son

2015 08-28

17
推荐指数

1
解决办法

9925
查看次数

谷歌的文字转语音引擎声音？

大多数人可能都知道google翻译的文本到语音合成器,因为你可以在这里以编程方式访问btw:

http://translate.google.com/translate_tts?tl=en&q=text

Run Code Online (Sandbox Code Playgroud)

我的印象是它有时使用espeak,但在主要语言中,质量要好得多.谁知道谷歌正在使用什么,或者他们正在使用什么声音？显然,这不是正常的,也不是mbrola espeak的声音.

text-to-speech google-translate speech-synthesis espeak machine-translation

Ste*_*ger

lucky-day

16
推荐指数

1
解决办法

2万
查看次数

开源机器翻译引擎？

我们正在寻找可以融入我们的本地化工作流程的开源机器翻译引擎.我们正在查看以下选项:

摩西(C++)
约书亚(爪哇)
Phrasal(Java)

其中,摩西拥有最广泛的社区支持,并已被许多本地化公司和研究人员试用过.我们实际上倾向于使用基于Java的引擎,因为我们的应用程序都是Java.有没有人使用Joshua或Phrasal作为您工作流程的一部分.你能和他们分享一下你的经历吗？或者,摩西在提供的功能和易于集成方面远远超过这些.

并且,我们要求引擎支持:

特定于域的培训(即,它应为输入数据所属的每个域维护单独的短语表).
增量训练(即每次我们希望使用一些新的训练数据时,避免从头开始重新训练模型).
并行化翻译过程.

localization machine-translation

Sam*_*Sam

2012 10-02

13
推荐指数

2
解决办法

6148
查看次数

如何保存Python NLTK对齐模型供以后使用？

在Python中,我NLTK's alignment module用来在并行文本之间创建单词对齐.对齐bitexts可能是一个耗时的过程,尤其是在相当多的语料库上完成时.最好在一天内进行批量对齐,然后再使用这些对齐.

from nltk import IBMModel1 as ibm
biverses = [list of AlignedSent objects]
model = ibm(biverses, 20)

with open(path + "eng-taq_model.txt", 'w') as f:
    f.write(model.train(biverses, 20))  // makes empty file

Run Code Online (Sandbox Code Playgroud)

一旦我创建了一个模型,我怎样才能(1)将它保存到磁盘上,以及(2)以后重用它？

python io nlp nltk machine-translation

Mer*_*ako

2015 05-25

13
推荐指数

1
解决办法

1599
查看次数

适用于Android的自动翻译工具

您知道目前市场上是否有免费的自动本地化工具吗？它将从我的android项目中翻译我的XML文件我发现所有这些都依赖于Google翻译API.由于此API现在支付(自2011年12月以来),所有这些工具现在都已过时.

我试过的但是依赖谷歌翻译APIV1

Androlate Eclipse插件
ailocalizer
Chrome扩展程序
在线工具:http://uzitech.com/files/translator.php

如果有人找到合适的人,我将非常感激.

android localization internationalization machine-translation

Flo*_*vre

2015 08-19

12
推荐指数

1
解决办法

2万
查看次数

什么是统计机器翻译的好解释？

我试图找到一个关于统计机器翻译如何工作的高级解释.也就是说,假设我有一个不对齐的英语,法语和德语文本语料库,我怎么能用它来将任何句子从一种语言翻译成另一种语言呢？并不是我想要自己构建谷歌翻译,但我想更详细地了解它的工作原理.

我见过谷歌搜索但没有什么好处,它要么很快需要高级数学知识来理解,要么过于笼统.维基百科关于SMT的文章似乎都是,所以它并没有多大帮助.我怀疑这是一个如此复杂的领域,如果没有所有数学,它根本无法理解.

任何人都可以给出或知道这样一个系统如何工作的一般性逐步解释,针对程序员(所以代码示例很好)但不需要数学学位来理解？或者像这样的书也会很棒.

编辑:我正在寻找的一个完美的例子是SMT相当于Peter Norvig关于拼写校正的精彩文章.这样可以很好地了解编写拼写检查程序所涉及的内容,而无需详细了解Levenshtein/soundex/smoothing算法等等.

language-agnostic machine-translation

mik*_*kel

2011 04-28

11
推荐指数

1
解决办法

599
查看次数

TF2.0：转换模型：恢复保存的模型时出错：检查点（根）中的未解析对象。optimizer.iter：属性

我正在尝试恢复检查点并预测不同的句子NMT 注意力模型。在恢复检查点和预测时，我得到了带有以下警告的乱码结果：

   Unresolved object in checkpoint (root).optimizer.iter: attributes {
  name: "VARIABLE_VALUE"
  full_name: "Adam/iter"
  checkpoint_key: "optimizer/iter/.ATTRIBUTES/VARIABLE_VALUE"
}

Run Code Online (Sandbox Code Playgroud)

以下是我收到的其他警告和结果：

WARNING: Logging before flag parsing goes to stderr.
W1008 09:57:52.766877 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.iter
W1008 09:57:52.767037 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.beta_1
W1008 09:57:52.767082 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.beta_2
W1008 09:57:52.767120 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.decay
W1008 09:57:52.767155 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.learning_rate
W1008 09:57:52.767194 4594230720 util.py:244] Unresolved object in checkpoint: …

Run Code Online (Sandbox Code Playgroud)

nlp python-3.x machine-translation tensorflow tensorflow2.0

Hac*_*rds

lucky-day

11
推荐指数

2
解决办法

9833
查看次数

如何减少 Transformer 的 Helsinki-NLP/opus-mt-es-en（翻译模型）的推理时间

目前 Helsinki-NLP/opus-mt-es-en 模型从 Transformer 进行推理大约需要 1.5 秒。怎样才能减少呢？此外，当尝试将其转换为 onxx 运行时时出现此错误：

ValueError：无法识别此类 AutoModel 的配置类 <class 'transformers.models.marian.configuration_marian.MarianConfig'>：AutoModel。模型类型应为 RetriBertConfig、MT5Config、T5Config、DistilBertConfig、AlbertConfig、CamembertConfig、XLMRobertaConfig、BartConfig、LongformerConfig、RobertaConfig、LayoutLMConfig、SqueezeBertConfig、BertConfig、OpenAIGPTConfig、GPT2Config、MobileBertConfig、TransfoXLConfig、XLNetConfig、FlaubertConfig、FSMTConfig、XLMConfig、CTRLConfig 之一， ElectraConfig、ReformerConfig、FunnelConfig、LxmertConfig、BertGenerationConfig、DebertaConfig、DPRConfig、XLMProphetNetConfig、ProphetNetConfig、MPNetConfig、TapasConfig。

是否可以将其转换为 onxx 运行时？

machine-translation pytorch huggingface-transformers

sam*_*238

2021 01-03

7
推荐指数

1
解决办法

3087
查看次数