使用fgetcsv读取CSV文件时出现UTF-8问题

tes*_*ing 31 php csv utf-8 fgetcsv

我尝试读取CSV并回显内容.但内容显示错误的字符.

MäxMüstermänn - >MäxMüstermänn

CSV文件的编码是UTF-8,没有BOM(使用Notepad ++检查).

这是CSV文件的内容:

"Mäx";"Müstermänn"

我的PHP脚本

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
<body>
<?php
$handle = fopen ("specialchars.csv","r");
echo '<table border="1"><tr><td>First name</td><td>Last name</td></tr><tr>';
while ($data = fgetcsv ($handle, 1000, ";")) {
        $num = count ($data);
        for ($c=0; $c < $num; $c++) {
            // output data
            echo "<td>$data[$c]</td>";
        }
        echo "</tr><tr>";
}
?>
</body>
</html>
Run Code Online (Sandbox Code Playgroud)

我尝试setlocale(LC_ALL, 'de_DE.utf8');按照这里的建议使用但没有成功.内容仍然显示错误.

我错过了什么?

编辑:

一个echo mb_detect_encoding($data[$c],'UTF-8');给我UTF-8 UTF-8.

echo file_get_contents("specialchars.csv");给了我"Mäx";"Müstermänn".

print_r(str_getcsv(reset(explode("\n", file_get_contents("specialchars.csv"))), ';'))
Run Code Online (Sandbox Code Playgroud)

给我

Array ( [0] => Mäx [1] => Müstermänn )

这是什么意思?

rob*_*hes 51

试试这个:

<?php
$handle = fopen ("specialchars.csv","r");
echo '<table border="1"><tr><td>First name</td><td>Last name</td></tr><tr>';
while ($data = fgetcsv ($handle, 1000, ";")) {
        $data = array_map("utf8_encode", $data); //added
        $num = count ($data);
        for ($c=0; $c < $num; $c++) {
            // output data
            echo "<td>$data[$c]</td>";
        }
        echo "</tr><tr>";
}
?>
Run Code Online (Sandbox Code Playgroud)

  • 这完全删除了空间的特殊字符,这是非常危险的! (10认同)
  • @robssanches以上代码仅适用于字母类型的单词(字符),但不适用于其他语言,例如中文,印地语,希伯来语等。等 (2认同)

use*_*220 13

遇到类似问题:使用é,è,ö等特殊字符解析CSV文件...

以下工作对我来说很好:

要在html页面上正确表示字符,需要标题:

header('Content-Type: text/html; charset=UTF-8');
Run Code Online (Sandbox Code Playgroud)

为了正确解析每个字符,我使用了:

utf8_encode(fgets($file));
Run Code Online (Sandbox Code Playgroud)

别忘了在以下所有字符串操作中使用'Multibyte String Functions',如:

mb_strtolower($value, 'UTF-8');
Run Code Online (Sandbox Code Playgroud)


Pet*_*dík 7

在我的情况下,源文件具有 windows-1250 编码和 iconv 打印大量关于输入字符串中非法字符的通知......

所以这个解决方案对我帮助很大:

/**
 * getting CSV array with UTF-8 encoding
 *
 * @param   resource    &$handle
 * @param   integer     $length
 * @param   string      $separator
 *
 * @return  array|false
 */
private function fgetcsvUTF8(&$handle, $length, $separator = ';')
{
    if (($buffer = fgets($handle, $length)) !== false)
    {
        $buffer = $this->autoUTF($buffer);
        return str_getcsv($buffer, $separator);
    }
    return false;
}

/**
 * automatic convertion windows-1250 and iso-8859-2 info utf-8 string
 *
 * @param   string  $s
 *
 * @return  string
 */
private function autoUTF($s)
{
    // detect UTF-8
    if (preg_match('#[\x80-\x{1FF}\x{2000}-\x{3FFF}]#u', $s))
        return $s;

    // detect WINDOWS-1250
    if (preg_match('#[\x7F-\x9F\xBC]#', $s))
        return iconv('WINDOWS-1250', 'UTF-8', $s);

    // assume ISO-8859-2
    return iconv('ISO-8859-2', 'UTF-8', $s);
}
Run Code Online (Sandbox Code Playgroud)

对@manvel 的回答的回应 - 使用 str_getcsv 而不是爆炸 - 因为这样的情况:

some;nice;value;"and;here;comes;combinated;value";and;some;others
Run Code Online (Sandbox Code Playgroud)

爆炸将把字符串炸成几部分:

some
nice
value
"and
here
comes
combinated
value"
and
some
others
Run Code Online (Sandbox Code Playgroud)

但是 str_getcsv 会将字符串分解为多个部分:

some
nice
value
and;here;comes;combinated;value
and
some
others
Run Code Online (Sandbox Code Playgroud)


And*_*olm 6

尝试将其放入文件的顶部(在任何其他输出之前):

<?php

header('Content-Type: text/html; charset=UTF-8');

?>
Run Code Online (Sandbox Code Playgroud)


Man*_*vel 5

问题是该函数返回UTF-8(它可以使用mb_detect_encoding检查),但不转换,这些字符作为UTF-8。?因此,有必要使用iconv反向转换为初始编码(Windows-1251 或 CP1251)。但是由于 fgetcsv 返回一个数组,我建议编写一个自定义函数:[对不起我的英语]

function customfgetcsv(&$handle, $length, $separator = ';'){
    if (($buffer = fgets($handle, $length)) !== false) {
        return explode($separator, iconv("CP1251", "UTF-8", $buffer));
    }
    return false;
}
Run Code Online (Sandbox Code Playgroud)


tes*_*ing 2

现在我开始工作了(删除命令后header)。我认为问题在于 php 文件的编码采用 ISO-8859-1。我把它设置为UTF-8无BOM。我以为我已经这样做了,但也许我又做了一次撤消。

另外,我用SET NAMES 'utf8'的是数据库。现在数据库中也是正确的。