如何删除字符串中的中文字符

use*_*745 7 php regex

是否有任何简单的方法来截断汉字我发现regexp但它没有按预期工作

<?php
$data1='?????Test';
$data2='????-???Test';

echo str_replace(preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data1),'',$data1)
."<br>\n".
str_replace(preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data2),'',$data2);
exit;
Run Code Online (Sandbox Code Playgroud)

它适用于data1但不适用于data2

Kob*_*obi 14

您可以使用Unicode字符属性(Han应该适合您):

preg_replace("/\p{Han}+/u", '', $data)
Run Code Online (Sandbox Code Playgroud)

工作示例:http://ideone.com/uEiIV5


Com*_*eek 8

试试这个代码(在线版@ Ideone.com):

<?php
$data1='?????Test';
$data2='????-???Test';

echo preg_replace("/[\x{4e00}-\x{9fa5}]+/u", '', $data1), "\n";
echo preg_replace("/[\x{4e00}-\x{9fa5}]+/u", '', $data2);

// Better use this (credits to Kobi's answer below)
preg_replace("/\p{Han}+/u", '', $data)
Run Code Online (Sandbox Code Playgroud)

我已从^正则表达式中删除了所以我们不再需要str_replace()了.

您的旧正则表达式匹配所有非中文字符,因此preg_replace()只在返回的字符串中留下中文字符.为了获得最终结果,您必须用空字符串替换找到的中文字符.

preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data1) // returns ?????
str_replace('?????', '', $data1); // gives us Test
Run Code Online (Sandbox Code Playgroud)

第二个正则表达式再次匹配所有非中文字符.但是现在,他们不是一个序列!

preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data2) // returns ???????
Run Code Online (Sandbox Code Playgroud)

而且这个字符串不能再被找到,$data2因此它不起作用.