PHP 中的编码转换(ISO-8859-1、UTF-8、CP1250)

Pet*_*cký 2 php utf-8 iso-8859-1 cp1250

我想处理来自 CSV 文件的数据,但我意识到字母显示不正确。我尝试了数百万种方法来转换编码,但没有任何效果。在 MacOS、PHP 7.4.4 上工作。

在执行fgets()fgetcsv()处理变量后,我会得到这个(示例中为 2 行/行)。

Kód ADM;Kód obce;Název obce;Kód MOMC;Název MOMC;Kód MOP;Název MOP;Kód èásti obce;Název èásti obce;Kód ulice;Název ulice;Typ SO;Èíslo domovní;Èíslo orientaèní;Znak èísla orientaèního;PSÈ;Souøadnice Y;Souøadnice X;Platí Od

1234;1234;HorniDolni;;;;;1234;HorniDolni;;;è.p.;2;;;748790401;4799.98;15893971.21;2013-12-01T00:00:00
Run Code Online (Sandbox Code Playgroud)

它或多或少是正确的捷克语,但字母?被取代è?被取代ø,它们都不是捷克语字母表的一部分。我有信心,文件中会有更多错位的字母。

执行file -I path/to/file我收到file: text/plain; charset=iso-8859-1这很伤心,因为就维基而言,这个字符集没有包含捷克语字母表。

以下命令都没有转换错位的字母: mb_convert_encoding($line, 'UTF-8', 'ISO8859-1') iconv('ISO-8859-1', 'UTF-8', $line) iconv('ISO8859-1', 'UTF-8', $line)

我注意到在ISO-8859-1 中,ø封信有一个代码00F8Windows-1250(包括捷克语 aplhabet)具有?带代码的正确字母,0159 但它们都以00F8. 与 letter 相同,?并且è都以 code开头00E7。我不太了解编码,但似乎文件是在 Windows-1250 中编码的,但解释器认为编码是 ISO-8859-1 并采用原始编码的字母/代码。

但是两种转换(ISO-8859-1 => Windows-1250、ISO-8859-1 => UTF-8 或其他方式)都不起作用。

有谁知道如何解决这个问题?谢谢!

Ala*_*ack 5

8 位字符编码的问题在于它主要需要人类智能来解释正确的代码页。

当您file在文件上运行时,可以确定该文件主要由可打印字符组成,但由于它只查看字节,因此无法轻松区分 iso-8895-1 和 iso-8895-2 之间的区别. 到file0x80与 相同0x80

file由于使用了0x80-0xFF. 即不仅仅是ASCII。

(Unicode 编码,如 UTF-8 和 UTF-16 更容易通过它们的字节序列或在文件顶部设置的字节顺序标记来检测)

有一些智能字符代码页检测器,借助来自不同语言的字典,可以根据字符/字节序列估计代码页。

您可能需要的转换很简单iso-8895-2 -> UTF-8

对您来说重要的是您知道原始编码(解释),然后当您验证它时,您确切地知道您正在查看它的编码。

例如,PHP 默认将 HTTP 字符集设置为iso-8895-1. 这意味着您很有可能正确地转换为iso-8895-2,但是您的浏览器随后会“解释”为iso-8895-1.

验证的最佳方法是将文件保存到磁盘,然后在打开文件之前使用文本编辑器(如 VS Code)将其设置为所需的编码

如果您需要进一步的帮助,您需要编辑您的问题以包含您正在使用的确切代码。