PHP:将"'"字符从ISO-8859-1转换为UTF-8时出现问题

mat*_*ndr 5 php utf-8 iso-8859-1 character-encoding iconv

我在使用PHP将ISO-8859-1数据库内容转换为UTF-8时遇到了一些问题.我正在运行以下代码来测试:

// Connect to a latin1 charset database 
// and retrieve "Georgia O’Keeffe", which contains a "’" character
$connection = mysql_connect('*****', '*****', '*****');
mysql_select_db('*****', $connection);
mysql_set_charset('latin1', $connection);
$result = mysql_query('SELECT notes FROM categories WHERE id = 16', $connection);
$latin1Str = mysql_result($result, 0);
$latin1Str = substr($latin1Str, strpos($latin1Str, 'Georgia'), 16);

// Try to convert it to UTF-8
$utf8Str = iconv('ISO-8859-1', 'UTF-8', $latin1Str);

// Output both
var_dump($latin1Str);
var_dump($utf8Str);
Run Code Online (Sandbox Code Playgroud)

当我在Firefox的源视图中运行它时,确保Firefox的编码设置设置为"Western(ISO-8859-1)",我得到:

ASD

到现在为止还挺好.第一个输出包含那个奇怪的引用,我可以正确看到它,因为它在ISO-8859-1中,因此是Firefox.

将Firefox的编码设置更改为"UTF-8"后,它看起来像这样:

ASD

报价在哪里?是不是iconv()应该将其转换为UTF-8?

dan*_*n04 14

U + 2019右单引号不是ISO-8859-1中的字符.它是windows-1252中的一个字符,为0x92.实际的ISO-8859-1字符0x92是一个很少使用的C1控制字符,称为"私有使用2".

使用charset标签ISO-8859-1将Windows-1252文本数据错误标记是很常见的.许多Web浏览器和电子邮件客户端将MIME字符集ISO-8859-1视为Windows-1252字符,以便适应此类错误标记,但这不是标准行为,应注意避免在ISO-8859-1中生成这些字符标签内容.

看来这就是这里发生的事情.将"ISO-8859-1"更改为"windows-1252".