相关,但没有令人满意的答案:如何将大型文本文件拆分为 500 字左右的块?
我正在尝试将一个文本文件(http://mattmahoney.net/dc/text8.zip)在一行中包含 > 10^7 个单词,然后将其拆分为每行包含 N 个单词的行。我目前的方法有效,但相当缓慢和丑陋(使用 shell 脚本):
i=0
for word in $(sed -e 's/\s\+/\n/g' input.txt)
do
echo -n "${word} " > output.txt
let "i=i+1"
if [ "$i" -eq "1000" ]
then
echo > output.txt
let "i=0"
fi
done
Run Code Online (Sandbox Code Playgroud)
关于如何使这个更快或更紧凑的任何提示?