jau*_*vid 22 unix awk command-line tokenize
我正在为一个天真的布尔信息检索系统做更快的测试,我想使用awk,grep,egrep,sed或类似的东西和管道将文本文件拆分成单词并将它们保存到其他文件中,每行一个单词.示例我的文件cotains:
Hola mundo, hablo español y no sé si escribí bien la
pregunta, ojalá me puedan entender y ayudar
Adiós.
Run Code Online (Sandbox Code Playgroud)
输出文件应包含:
Hola
mundo
hablo
español
...
Run Code Online (Sandbox Code Playgroud)
谢谢!
Gur*_*uru 47
使用tr:
tr -s '[[:punct:][:space:]]' '\n' < file
Run Code Online (Sandbox Code Playgroud)
最简单的工具是fmt:
fmt -1 <your-file
Run Code Online (Sandbox Code Playgroud)
fmt旨在打破行以适应指定的宽度,如果你提供-1它,则在单词后面立即中断.有关man fmt文档,请参阅 灵感来自http://everythingsysadmin.com/2012/09/unorthodoxunix.html