标签: machine-translation

文本摘要评估 - BLEU与ROUGE

通过两个不同的汇总系统(sys1和sys2)和相同的参考汇总的结果,我用BLEU和ROUGE对它们进行了评估.问题是:sys1的所有ROUGE分数都高于sys2(ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4,ROUGE-L,ROUGE-SU4 ......)但是sys1的BLEU分数较低比sys2的BLEU得分(相当多).

所以我的问题是:ROUGE和BLEU都是基于n-gram来衡量系统摘要和人类摘要之间的相似之处.那么为什么评价结果会有差异呢?ROUGE和BLEU解释这个问题的主要区别是什么?

任何意见和建议将不胜感激!谢谢!

text-processing nlp machine-translation bleu rouge

18
推荐指数
3
解决办法
1万
查看次数

有关于giza ++的教程吗?

"自述"文件中的网址无效(http://www.fjoch.com/mkcls.htmlhttp://www.fjoch.com/GIZA++.html).关于吉萨++有一个很好的教程吗?或者是否有一些具有完整文档的替代方案?

nlp machine-translation giza++

17
推荐指数
1
解决办法
1万
查看次数

谷歌翻译iframe解决方法

我正在使用谷歌翻译工具翻译网页,我在这个页面上也有一个iframe,这显然没有翻译成页面.

是否有一种解决方法,你们任何人都知道,所以我也可以翻译iframe?

javascript jquery google-translate machine-translation

17
推荐指数
1
解决办法
9925
查看次数

谷歌的文字转语音引擎声音?

大多数人可能都知道google翻译的文本到语音合成器,因为你可以在这里以编程方式访问btw:

http://translate.google.com/translate_tts?tl=en&q=text
Run Code Online (Sandbox Code Playgroud)

我的印象是它有时使用espeak,但在主要语言中,质量要好得多.谁知道谷歌正在使用什么,或者他们正在使用什么声音?显然,这不是正常的,也不是mbrola espeak的声音.

text-to-speech google-translate speech-synthesis espeak machine-translation

16
推荐指数
1
解决办法
2万
查看次数

开源机器翻译引擎?

我们正在寻找可以融入我们的本地化工作流程的开源机器翻译引擎.我们正在查看以下选项:

  1. 摩西(C++)
  2. 约书亚(爪哇)
  3. Phrasal(Java)

其中,摩西拥有最广泛的社区支持,并已被许多本地化公司和研究人员试用过.我们实际上倾向于使用基于Java的引擎,因为我们的应用程序都是Java.有没有人使用Joshua或Phrasal作为您工作流程的一部分.你能和他们分享一下你的经历吗?或者,摩西在提供的功能和易于集成方面远远超过这些.

并且,我们要求引擎支持:

  1. 特定于域的培训(即,它应为输入数据所属的每个域维护单独的短语表).
  2. 增量训练(即每次我们希望使用一些新的训练数据时,避免从头开始重新训练模型).
  3. 并行化翻译过程.

localization machine-translation

13
推荐指数
2
解决办法
6148
查看次数

如何保存Python NLTK对齐模型供以后使用?

在Python中,我NLTK's alignment module用来在并行文本之间创建单词对齐.对齐bitexts可能是一个耗时的过程,尤其是在相当多的语料库上完成时.最好在一天内进行批量对齐,然后再使用这些对齐.

from nltk import IBMModel1 as ibm
biverses = [list of AlignedSent objects]
model = ibm(biverses, 20)

with open(path + "eng-taq_model.txt", 'w') as f:
    f.write(model.train(biverses, 20))  // makes empty file
Run Code Online (Sandbox Code Playgroud)

一旦我创建了一个模型,我怎样才能(1)将它保存到磁盘上,以及(2)以后重用它?

python io nlp nltk machine-translation

13
推荐指数
1
解决办法
1599
查看次数

适用于Android的自动翻译工具

您知道目前市场上是否有免费的自动本地化工具吗?它将从我的android项目中翻译我的XML文件我发现所有这些都依赖于Google翻译API.由于此API现在支付(自2011年12月以来),所有这些工具现在都已过时.

我试过的但是依赖谷歌翻译APIV1

如果有人找到合适的人,我将非常感激.

android localization internationalization machine-translation

12
推荐指数
1
解决办法
2万
查看次数

什么是统计机器翻译的好解释?

我试图找到一个关于统计机器翻译如何工作的高级解释.也就是说,假设我有一个不对齐的英语,法语和德语文本语料库,我怎么能用它来将任何句子从一种语言翻译成另一种语言呢?并不是我想要自己构建谷歌翻译,但我想更详细地了解它的工作原理.

我见过谷歌搜索但没有什么好处,它要么很快需要高级数学知识来理解,要么过于笼统.维基百科关于SMT的文章似乎都是,所以它并没有多大帮助.我怀疑这是一个如此复杂的领域,如果没有所有数学,它根本无法理解.

任何人都可以给出或知道这样一个系统如何工作的一般性逐步解释,针对程序员(所以代码示例很好)但不需要数学学位来理解?或者像这样的书也会很棒.

编辑:我正在寻找的一个完美的例子是SMT相当于Peter Norvig关于拼写校正的精彩文章.这样可以很好地了解编写拼写检查程序所涉及的内容,而无需详细了解Levenshtein/soundex/smoothing算法等等.

language-agnostic machine-translation

11
推荐指数
1
解决办法
599
查看次数

TF2.0:转换模型:恢复保存的模型时出错:检查点(根)中的未解析对象。optimizer.iter:属性

我正在尝试恢复检查点并预测不同的句子NMT 注意力模型。在恢复检查点和预测时,我得到了带有以下警告的乱码结果:

   Unresolved object in checkpoint (root).optimizer.iter: attributes {
  name: "VARIABLE_VALUE"
  full_name: "Adam/iter"
  checkpoint_key: "optimizer/iter/.ATTRIBUTES/VARIABLE_VALUE"
}
Run Code Online (Sandbox Code Playgroud)

以下是我收到的其他警告和结果:

WARNING: Logging before flag parsing goes to stderr.
W1008 09:57:52.766877 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.iter
W1008 09:57:52.767037 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.beta_1
W1008 09:57:52.767082 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.beta_2
W1008 09:57:52.767120 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.decay
W1008 09:57:52.767155 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.learning_rate
W1008 09:57:52.767194 4594230720 util.py:244] Unresolved object in checkpoint: …
Run Code Online (Sandbox Code Playgroud)

nlp python-3.x machine-translation tensorflow tensorflow2.0

11
推荐指数
2
解决办法
9833
查看次数

如何减少 Transformer 的 Helsinki-NLP/opus-mt-es-en(翻译模型)的推理时间

目前 Helsinki-NLP/opus-mt-es-en 模型从 Transformer 进行推理大约需要 1.5 秒。怎样才能减少呢?此外,当尝试将其转换为 onxx 运行时时出现此错误:

ValueError:无法识别此类 AutoModel 的配置类 <class 'transformers.models.marian.configuration_marian.MarianConfig'>:AutoModel。模型类型应为 RetriBertConfig、MT5Config、T5Config、DistilBertConfig、AlbertConfig、CamembertConfig、XLMRobertaConfig、BartConfig、LongformerConfig、RobertaConfig、LayoutLMConfig、SqueezeBertConfig、BertConfig、OpenAIGPTConfig、GPT2Config、MobileBertConfig、TransfoXLConfig、XLNetConfig、FlaubertConfig、FSMTConfig、XLMConfig、CTRLConfig 之一, ElectraConfig、ReformerConfig、FunnelConfig、LxmertConfig、BertGenerationConfig、DebertaConfig、DPRConfig、XLMProphetNetConfig、ProphetNetConfig、MPNetConfig、TapasConfig。

是否可以将其转换为 onxx 运行时?

machine-translation pytorch huggingface-transformers

7
推荐指数
1
解决办法
3087
查看次数