我希望以UTF-8编码的文件不使用超过128个不同的字符,然后将其移动到7位编码以节省1/8的空间.例如,如果我有一个仅使用前128个(ascii)字符的16 MB文本文件,我想削减额外的位以将文件减少到14MB.
我该怎么做呢?
似乎没有现成的免费或专有程序,所以我想我可能会尝试制作一个简单(如果效率低下)的程序.
我的基本思路是从用于每个字符的当前十六进制/十进制/二进制值到七位编码中的128个值创建函数,然后扫描文件并将每个修改后的值写入新文件.
所以,如果文件看起来像(我将使用十进制示例,因为我尝试不必以十六进制思考)
127 254 025 212 015 015 132 ......它会变成
001 002 003 004 005 005 006
如果127映射到001,254映射到005等.
不过,我对一些事情并不完全确定.
谢谢.
你明白文件被分成字节吗?因此,如果你这样做,你将有7位字节1的第一个字母加上第二个字母的1位,然后在第二个字母中,你有第二个字母的6位,以及2位的第三,等等.它看起来像这样:
|AAAAAAAB|BBBBBBCC|CCCCCDDD|DDDDEEEE|EEEFFFFF|FF...
\------/ \------/ \------/ \------/ \------/
byte byte byte byte byte
Run Code Online (Sandbox Code Playgroud)