我得到了 ZIP 文件,其中包含文件,哪些文件名采用某种编码。假设我知道这些文件名的编码,但我仍然不知道如何正确解压缩它们。
这是示例文件,它包含一个文件“?SSK????吸血鬼日记????S06E12.ass”
我知道使用的编码是 GB18030(中文)
问题是 - 如何使用 unzip 或其他 CLI 实用程序在 FreeBSD 中解压缩该文件以获得正确编码的文件名?我尽我所能,但结果从来没有好。请帮忙。
我在 OSX 上试过:
MBP1:test 2ge$ bsdtar xf gb18030.zip
MBP1:test 2ge$ ls
%A1%BESSK%D7%D6L?%D7?The Vampire Diaries %CE%FC?%B9%ED%C8?%C7S06E12/ gb18030.zip
MBP1:test 2ge$ cd %A1%BESSK%D7%D6L?%D7?The\ Vampire\ Diaries\ %CE%FC?%B9%ED%C8?%C7S06E12/
MBP1:%A1%BESSK%D7%D6L?%D7?The Vampire Diaries %CE%FC?%B9%ED%C8?%C7S06E12 2ge$ ls
%A1%BESSK%D7%D6L?%D7?The Vampire Diaries %CE%FC?%B9%ED%C8?%C7S06E12.ass*
MBP1:%A1%BESSK%D7%D6L?%D7?The Vampire Diaries %CE%FC?%B9%ED%C8?%C7S06E12 2ge$ find . | iconv -f gb18030 -t utf-8
.
./%A1%BESSK%D7%D6L?%D7??he Vampire Diaries %CE%FC?%B9%ED%C8?%C7S06E12.ass
MBP1:%A1%BESSK%D7%D6L?%D7?The Vampire Diaries %CE%FC?%B9%ED%C8?%C7S06E12 2ge$ convmv -r -f gb18030 -t utf-8 --notest .
Skipping, already UTF-8: ./%A1%BESSK%D7%D6L?%D7?The Vampire Diaries %CE%FC?%B9%ED%C8?%C7S06E12.ass
Ready!
Run Code Online (Sandbox Code Playgroud)
我尝试了类似的解压缩,但我遇到了类似的问题。
谢谢,现在尝试免费的 BSD,我正在使用来自 OSX(终端)的 SSH 进行连接:
# locale
LANG=
LC_CTYPE="C"
LC_COLLATE="C"
LC_TIME="C"
LC_NUMERIC="C"
LC_MONETARY="C"
LC_MESSAGES="C"
LC_ALL=C
Run Code Online (Sandbox Code Playgroud)
首先,我想正确显示中文名称。我变了
setenv LC_ALL zh_CN.GB18030
setenv LANG zh_CN.GB18030
Run Code Online (Sandbox Code Playgroud)
然后我下载了文件并尝试“ls”以查看正确的字符,但不是运气。所以我想我必须先解决中文语言环境来验证何时得到正确的结果,实际上我可以比较它。你也可以帮我吗?
小智 32
这是我在 Ubuntu 16.04 上所做的以任何编码解压缩 zip 的操作,只要我知道该编码是什么。同样的方法应该适用于 FreeBSD,因为它只依赖于广泛可用的unzip
工具。
我仔细检查了编码的确切名称,以免拼错:https : //www.iana.org/assignments/character-sets/character-sets.xhtml
我只是跑
$ unzip -O <encoding> <filename> -d <target_dir>
Run Code Online (Sandbox Code Playgroud)
或者
$ unzip -I <encoding> <filename> -d <target_dir>
Run Code Online (Sandbox Code Playgroud)
在此处选择-O
或-I
根据说明进行选择:
$ unzip -h
UnZip 6.00 of 20 April 2009, by Debian. Original by Info-ZIP.
...
-O CHARSET specify a character encoding for DOS, Windows and OS/2 archives
-I CHARSET specify a character encoding for UNIX and other archives
...
Run Code Online (Sandbox Code Playgroud)
这意味着我只是尝试一下-O
,它应该可以工作,因为没有多少人会.zip
在 Unix 中创建文件......
因此,对于您的具体示例:
确切的编码名称是GB18030
.
我使用-O
标志和:
$ unzip -O GB18030 gb18030.zip -d target_dir
Archive: gb18030.zip
creating: target_dir/?SSK????The Vampire Diaries ?????S06E12/
inflating: target_dir/?SSK????The Vampire Diaries ?????S06E12/?SSK????The Vampire Diaries ?????S06E12.ass
Run Code Online (Sandbox Code Playgroud)
... 有用。
小智 24
方法 1:使用 unar 实用程序
sudo apt-get install unar
unar -e gb18030 gb18030.zip
Run Code Online (Sandbox Code Playgroud)
方法二:使用python脚本解压文件(参考https://gist.github.com/usunyu/dfc6e56af6e6caab8018bef4c3f3d452#file-gbk-unzip-py)
sudo apt-get install unar
unar -e gb18030 gb18030.zip
Run Code Online (Sandbox Code Playgroud)
示例 gb18030.zip 将提取以下文件
?SSK????The Vampire Diaries ?????S06E12
?SSK????The Vampire Diaries ?????S06E12/?SSK????The Vampire Diaries ?????S06E12.ass
Run Code Online (Sandbox Code Playgroud)
use*_*686 12
在大多数 POSIX 文件系统上,文件名只是一系列字节,由用户空间来理解它。您可以充分利用这一点。
首先,使用 提取存档bsdtar
,因为该unzip
工具似乎会破坏文件名,而 bsdtar 将原始提取它们。(我正在 Linux 上测试这个。我猜 FreeBSD 只是称它为tar
。)
$ bsdtar xf gb18030.zip
Run Code Online (Sandbox Code Playgroud)验证诸如此类的工具是否iconv
可以成功解码名称:
$ find . | iconv -f gb18030 -t utf-8
Run Code Online (Sandbox Code Playgroud)
(请注意,这仅影响find
输出,而不影响文件本身。)
最后用于convmv
将文件名转换为 UTF-8:
$ convmv -r -f gb18030 -t utf-8 --notest .
Run Code Online (Sandbox Code Playgroud)
(注意:我必须从 CPAN 安装 Encode::HanExtra 以获得 GB18030 支持,并手动添加use Encode::HanExtra;
到 /usr/bin/convmv 即使它应该
如果convmv
不可用,请编写脚本:
$ find . -depth | while read -r old; do
old=./$old;
head=${old%/*};
tail=${old##*/};
new=$head/$(echo "$tail" | iconv -f gb18030 -t utf-8);
[ "$old" = "$new" ] || mv "$old" "$new";
done
Run Code Online (Sandbox Code Playgroud)
(至少在 Linux 上,这有一个优势,iconv
几乎总是可用的,并且它总是支持 gb18030。)
在 OS X 上,您可以使用名为The Unarchiver的 GUI 应用程序。它可以使用Mac App Store或Homebrew Cask 安装:
brew cask install the-unarchiver
Run Code Online (Sandbox Code Playgroud)
当您使用它打开 ZIP 文件时,该应用程序允许您使用存档中文件名的预览来选择适当的编码。
7z 支持带有 switch 的字符集 ID -scs
,例如:
7z x -scs903 some.zip
Run Code Online (Sandbox Code Playgroud)
903在哪里????字符集。可以在此处找到更长的字符集 ID 列表。