sim*_*ing 0 zip text-processing
我在网上找到了一个可用于解压缩docx文件的命令,但我无法调整它来解压缩xlsx文件。命令是
unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
Run Code Online (Sandbox Code Playgroud)
我无法理解第二个参数word/document.xml及其使用方式。
当我尝试转换 xlsx 文件时,我尝试了:
unzip -p testexcel.xlsx excel/spreadsheet.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
Run Code Online (Sandbox Code Playgroud)
但我不知道在第二个参数中放入什么来代替excel/spreadsheet.xml。
该参数word/document.xml是您要返回的 zip 存档中文件的路径unzip。这是 docx 等文件类型标准结构的一部分。
对于 Excel xlsx 文件,您可能需要xl/worksheets/sheet1.xml. 如果还有其他工作表,则它们是sheet2.xml等。这与您为工作表指定的名称无关,这些工作表与一般电子表格信息一起存储在xl/workbook.xml中。
如果您不确定 zip 文件的结构,可以使用该-l选项列出它包含的文件。
unzip -l some.docx
省略该选项只会将文件提取到当前目录。-p您正在使用的命令中使用的 会将输出通过管道传输到 stdout,以便 sed 可以处理它。