小编con*_*ipo的帖子

随机播放两个并行文本文件

我有两个句子对齐的平行语料库(文本文件),大约有 5000 万个单词。(来自 Europarl 语料库 -> 法律文件的平行翻译)。我现在想打乱两个文件的行,但都以相同的方式。我想使用 gshuf(我在 Mac 上)使用一个独特的随机源来解决这个问题。

gshuf --random-source /path/to/some/random/data file1
gshuf --random-source /path/to/some/random/data file2
Run Code Online (Sandbox Code Playgroud)

但是我收到了错误消息end of file,因为显然随机种子需要包含要排序的文件包含的所有单词。真的吗?如果是,我应该如何创建一个适合我需要的随机种子?如果不是,我可以通过什么其他方式并行随机化文件?我想过将它们粘贴在一起,随机化然后再次拆分。但是,这看起来很难看,因为我需要首先找到文件中没有的分隔符。

osx text-processing random

9
推荐指数
1
解决办法
2548
查看次数

标签 统计

osx ×1

random ×1

text-processing ×1