这个正则表达式的任何陷阱都与尚未编码的&符号相匹配

ale*_*lex 4 php regex

在PHP中,我想编码尚未编码的&符号.我想出了这个正则表达式

/&(?=[^a])/

Run Code Online (Sandbox Code Playgroud)

到目前为止它似乎运作良好,但看到我不是一个正则表达式专家,我问这个正则表达式是否有任何潜在的陷阱？

基本上它需要转换&为&但&保持&原样(以免得到&amp;)

谢谢

更新

谢谢你的回答.看来我并没有想足够广泛地覆盖所有基地.这似乎是正则表达式本身的常见陷阱(必须考虑所有可能使你的正则表达式得到误报的可能性).它确实打败了我原来的str_replace(' & ', ' & ', $string); :)

更好的是负面的先行断言来验证&不跟随放大器;

/&(?!amp;)/

Run Code Online (Sandbox Code Playgroud)

虽然这会改变用于其他实体的任何&符号.如果你可能有其他人,那么怎么样

/&(?!#?[a-zA-Z0-9]+;)/

Run Code Online (Sandbox Code Playgroud)

这将查找一个&符号,但断言它后面没有可选的哈希符号(对于数字实体),一系列字母数字和分号,它应该包括命名和数字实体,如&quote;或ª

测试代码

$text="It&rsquo;s 30 &#176; outside & very hot. T-shirt &amp; shorts needed!";

$text=preg_replace('/&(?!#?[a-z0-9]+;)/', '&amp;', $text);

echo "$text\n";

Run Code Online (Sandbox Code Playgroud)

哪个会输出

It&rsquo;s 30 &#176; outside &amp; very hot. T-shirt &amp; shorts needed!

Run Code Online (Sandbox Code Playgroud)

更容易理解为"外面30度非常热.需要T恤和短裤!"

PHP 5.2.3+的替代方案

正如Ionut G. Stan在下面指出的那样,从PHP 5.2.3开始,你可以使用htmlspecialchars和第四个参数false来防止双重编码,例如

$text=htmlspecialchars($text,ENT_COMPAT,"UTF-8",false);

Run Code Online (Sandbox Code Playgroud)

归档时间：	16 年，11 月前
查看次数：	3055 次
最近记录：	11 年，9 月前

Java正则表达式在标记之间提取文本 73

参考 - 有关PDO的常见问题解答 50

检查变量是否为空 34

X-Requested-With标头服务器检查是否足以防止ajax驱动的应用程序的CSRF？ 24

如何替换R中的单反斜杠 24

Javascript正则表达式匹配捕获返回整个匹配,而不是组 12

使用preg_match检测网址？在字符串中没有http:// 11

用逗号空格替换空格的正则表达式,除了行尾 8

如何将字符串中的字符串拆分为SQL Server中的单独列 7

如何解构命名捕获组？ 7

在JavaScript中循环遍历数组 2940

event.preventDefault()与return false 2891

可以(a == 1 && a == 2 && a == 3)评估为真吗？ 2438

如何在PHP中解析和处理HTML/XML？ 2071

家谱软件中的循环 1594

计算C#中的相对时间 1461

获取JavaScript数组中的所有唯一值(删除重复项) 1273

Vim最有效的捷径是什么？ 1127

如何从Python字符串中修剪空格？ 1103

使用node.js作为简单的Web服务器 1068