FILTER_SANITIZE_STRING 正在剥离 < 字符及其后的任何文本

Question

在使用FILTER_SANITIZE_STRING变量（由人工输入填充）时，我遇到了一个奇怪的问题。它似乎剥离了<字符和之后的任何文本。该>字符保持不变。

我认为它认为这<是一个需要剥离的 HTML 标签，但是它后面没有结束标签，所以我不知道为什么它会这样。有没有办法让它留<在原地，并仍然按照它应该的方式进行消毒？

Answer 1

根本问题是，当您使用FILTER_SANITIZE_STRING剥离 HTML 标签时，您将输入作为 HTML 处理。根据您的描述，您的输入是纯文本。因此，过滤器只能破坏输入数据，正如用户已经报告的那样。

虽然它似乎是一种非常流行的技术，但我从来没有理解将纯文本上的 HTML 标签条带化作为清理方法的概念。如果它不是 HTML，您就不需要关心 HTML 标签，原因与您不需要关心 SQL 关键字或命令行命令的原因相同。它只是数据。

但是，当然，当您之后将字符串注入 HTML 时，您需要对其进行转义以确保：

这就是htmlspecialchars()存在的原因。同样，动态生成任何其他类型的代码时，也需要使用相应的转义机制：SQL、JavaScript、JSON...

在存储数据之前，我不会应用 `htmlspecialchars()`。这使得将它用于在网站中显示它的任何其他内容变得更加困难。我会存储原始原始数据并在实际使用时对其进行转换。按需转义的过载几乎不会引起注意。 (4认同)

FILTER_SANITIZE_STRING 正在剥离 &lt; 字符及其后的任何文本