通过两个不同的汇总系统(sys1和sys2)和相同的参考汇总的结果,我用BLEU和ROUGE对它们进行了评估.问题是:sys1的所有ROUGE分数都高于sys2(ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4,ROUGE-L,ROUGE-SU4 ......)但是sys1的BLEU分数较低比sys2的BLEU得分(相当多).
所以我的问题是:ROUGE和BLEU都是基于n-gram来衡量系统摘要和人类摘要之间的相似之处.那么为什么评价结果会有差异呢?ROUGE和BLEU解释这个问题的主要区别是什么?
任何意见和建议将不胜感激!谢谢!
"自述"文件中的网址无效(http://www.fjoch.com/mkcls.html和http://www.fjoch.com/GIZA++.html).关于吉萨++有一个很好的教程吗?或者是否有一些具有完整文档的替代方案?
我正在使用谷歌翻译工具翻译网页,我在这个页面上也有一个iframe,这显然没有翻译成页面.
是否有一种解决方法,你们任何人都知道,所以我也可以翻译iframe?
大多数人可能都知道google翻译的文本到语音合成器,因为你可以在这里以编程方式访问btw:
http://translate.google.com/translate_tts?tl=en&q=text
Run Code Online (Sandbox Code Playgroud)
我的印象是它有时使用espeak,但在主要语言中,质量要好得多.谁知道谷歌正在使用什么,或者他们正在使用什么声音?显然,这不是正常的,也不是mbrola espeak的声音.
text-to-speech google-translate speech-synthesis espeak machine-translation
我们正在寻找可以融入我们的本地化工作流程的开源机器翻译引擎.我们正在查看以下选项:
其中,摩西拥有最广泛的社区支持,并已被许多本地化公司和研究人员试用过.我们实际上倾向于使用基于Java的引擎,因为我们的应用程序都是Java.有没有人使用Joshua或Phrasal作为您工作流程的一部分.你能和他们分享一下你的经历吗?或者,摩西在提供的功能和易于集成方面远远超过这些.
并且,我们要求引擎支持:
在Python中,我NLTK's alignment module
用来在并行文本之间创建单词对齐.对齐bitexts可能是一个耗时的过程,尤其是在相当多的语料库上完成时.最好在一天内进行批量对齐,然后再使用这些对齐.
from nltk import IBMModel1 as ibm
biverses = [list of AlignedSent objects]
model = ibm(biverses, 20)
with open(path + "eng-taq_model.txt", 'w') as f:
f.write(model.train(biverses, 20)) // makes empty file
Run Code Online (Sandbox Code Playgroud)
一旦我创建了一个模型,我怎样才能(1)将它保存到磁盘上,以及(2)以后重用它?
您知道目前市场上是否有免费的自动本地化工具吗?它将从我的android项目中翻译我的XML文件我发现所有这些都依赖于Google翻译API.由于此API现在支付(自2011年12月以来),所有这些工具现在都已过时.
我试过的但是依赖谷歌翻译APIV1
如果有人找到合适的人,我将非常感激.
android localization internationalization machine-translation
我试图找到一个关于统计机器翻译如何工作的高级解释.也就是说,假设我有一个不对齐的英语,法语和德语文本语料库,我怎么能用它来将任何句子从一种语言翻译成另一种语言呢?并不是我想要自己构建谷歌翻译,但我想更详细地了解它的工作原理.
我见过谷歌搜索但没有什么好处,它要么很快需要高级数学知识来理解,要么过于笼统.维基百科关于SMT的文章似乎都是,所以它并没有多大帮助.我怀疑这是一个如此复杂的领域,如果没有所有数学,它根本无法理解.
任何人都可以给出或知道这样一个系统如何工作的一般性逐步解释,针对程序员(所以代码示例很好)但不需要数学学位来理解?或者像这样的书也会很棒.
编辑:我正在寻找的一个完美的例子是SMT相当于Peter Norvig关于拼写校正的精彩文章.这样可以很好地了解编写拼写检查程序所涉及的内容,而无需详细了解Levenshtein/soundex/smoothing算法等等.
我正在尝试恢复检查点并预测不同的句子NMT 注意力模型。在恢复检查点和预测时,我得到了带有以下警告的乱码结果:
Unresolved object in checkpoint (root).optimizer.iter: attributes {
name: "VARIABLE_VALUE"
full_name: "Adam/iter"
checkpoint_key: "optimizer/iter/.ATTRIBUTES/VARIABLE_VALUE"
}
Run Code Online (Sandbox Code Playgroud)
以下是我收到的其他警告和结果:
WARNING: Logging before flag parsing goes to stderr.
W1008 09:57:52.766877 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.iter
W1008 09:57:52.767037 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.beta_1
W1008 09:57:52.767082 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.beta_2
W1008 09:57:52.767120 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.decay
W1008 09:57:52.767155 4594230720 util.py:244] Unresolved object in checkpoint: (root).optimizer.learning_rate
W1008 09:57:52.767194 4594230720 util.py:244] Unresolved object in checkpoint: …
Run Code Online (Sandbox Code Playgroud) 目前 Helsinki-NLP/opus-mt-es-en 模型从 Transformer 进行推理大约需要 1.5 秒。怎样才能减少呢?此外,当尝试将其转换为 onxx 运行时时出现此错误:
ValueError:无法识别此类 AutoModel 的配置类 <class 'transformers.models.marian.configuration_marian.MarianConfig'>:AutoModel。模型类型应为 RetriBertConfig、MT5Config、T5Config、DistilBertConfig、AlbertConfig、CamembertConfig、XLMRobertaConfig、BartConfig、LongformerConfig、RobertaConfig、LayoutLMConfig、SqueezeBertConfig、BertConfig、OpenAIGPTConfig、GPT2Config、MobileBertConfig、TransfoXLConfig、XLNetConfig、FlaubertConfig、FSMTConfig、XLMConfig、CTRLConfig 之一, ElectraConfig、ReformerConfig、FunnelConfig、LxmertConfig、BertGenerationConfig、DebertaConfig、DPRConfig、XLMProphetNetConfig、ProphetNetConfig、MPNetConfig、TapasConfig。
是否可以将其转换为 onxx 运行时?
nlp ×4
localization ×2
android ×1
bleu ×1
espeak ×1
giza++ ×1
io ×1
javascript ×1
jquery ×1
nltk ×1
python ×1
python-3.x ×1
pytorch ×1
rouge ×1
tensorflow ×1