如何非交互地使用 fairseq Interactive.py?

Ram*_*van 3 machine-translation pytorch fairseq

我正在尝试使用 Fairseq 将英语翻译成阿拉伯语。但 Interactive.py 脚本会即时翻译文本片段。但我需要用它来读取输入文本文件和写入输出文本文件。我提到了这个 GitHub 问题 - https://github.com/pytorch/fairseq/issues/858但它没有清楚地解释一般如何做。有什么建议 ?

Xav*_*ier 6

fairseq-interactive可以使用参数从文件中读取行--input,并将翻译输出到标准输出。

假设我有这个输入文本文件source.txt(其中要翻译的每个句子都在单独的行上):

Hello world!
My name is John
Run Code Online (Sandbox Code Playgroud)

你可以运行:

Hello world!
My name is John
Run Code Online (Sandbox Code Playgroud)

其中的意思是“将由”生成的所有(标准)> target.txt输出放入文件中。如果该文件尚不存在,则会创建该文件。target.txtfairseq-interactive

对于英语到法语模型,它将生成一个target.txt如下所示的文件(实际输出可能会有所不同,具体取决于您的模型、配置和 Fairseq 版本):

S-0     Hello world!
W-0     0.080   seconds
H-0     -0.43813419342041016    Bonj@@ our le monde !
D-0     -0.43813419342041016    Bonjour le monde !
P-0     -0.1532 -1.7157 -0.0805 -0.0838 -0.1575
S-1     My name is John
W-1     0.080   seconds
H-1     -0.3272092938423157     Je m' appelle John .
D-1     -0.3272092938423157     Je m'appelle John.
P-2     -0.3580 -0.2207 -0.0398 -0.1649 -1.0216 -0.1583
Run Code Online (Sandbox Code Playgroud)

要仅保留翻译(以 开头的行D-),您必须过滤此文件的内容。例如,您可以使用此命令:

grep -P "D-[0-9]+" target.txt | cut -f3 > only_translations.txt
Run Code Online (Sandbox Code Playgroud)

但您可以将所有命令合并到一行中:

fairseq-interactive --input=source.txt [all-your-fairseq-parameters] | grep -P "D-[0-9]+" | cut -f3 > target.txt
Run Code Online (Sandbox Code Playgroud)

(实际命令取决于 的实际结构target.txt。)

最后,知道您可以使用--input=-从标准输入读取输入。