使用PHP清理内容的最佳方法?

Jen*_*ell 4 html php string sanitize

哪种"消毒"内容的最佳方式?一个例子...

示例 - 清理之前:

Morbi mollis ante vitae massa suscipit a tempus est pellentesque. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Nulla mattis iaculis consectetur.
Morbi mollis ante vitae est pellentesque. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Nulla mattis iaculis consectetur.
Run Code Online (Sandbox Code Playgroud)

示例 - 清理后:

<p>Morbi mollis ante vitae massa suscipit a tempus est pellentesque. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Nulla mattis iaculis consectetur.</p>

<p>Morbi mollis ante vitae est pellentesque. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Nulla mattis iaculis consectetur.</p>
Run Code Online (Sandbox Code Playgroud)

它应该做什么

  • 它应该添加p-tags而不是换行符.
  • 它应该删除像tripple空格一样的空白空间
  • 它应该删除双换行符.
  • 它应该删除标签.
  • 它应该在内容之前删除换行符和空格(如果有的话).
  • 它应该删除内容后的换行符和空格(如果有的话).

知道我使用的str_replace功能,它应该是一个更好的解决方案吗?

我希望函数看起来像这样:

function sanitize($content)
{
    // Do the magic!
    return $content;
}
Run Code Online (Sandbox Code Playgroud)

cle*_*tus 6

function sanitize($content) {
  // leading white space
  $content = preg_replace('!^\s+!m', '', $content);

  // trailing white space
  $content = preg_replace('![ \t]+$!m', '', $content);

  // tabs and multiple white space
  $content = preg_replace('![ \t]+!', ' ', $content);  

  // multiple newlines
  $content = preg_replace('![\r\n]+!', "\n", $content);

  // paragraphs
  $content = preg_replace('!(.+)!m', '<p>$1</p>', $content);

  // done
  return $content;
}
Run Code Online (Sandbox Code Playgroud)

例:

$s = <<<END
Morbi mollis ante vitae massa suscipit a tempus est pellentesque. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Nulla mattis iaculis consectetur.
Morbi mollis ante vitae est pellentesque. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Nulla mattis iaculis consectetur.
END;

$out = sanitize($s);
Run Code Online (Sandbox Code Playgroud)

输出:

<p>Morbi mollis ante vitae massa suscipit a tempus est pellentesque. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Nulla mattis iaculis consectetur.</p> 
<p>Morbi mollis ante vitae est pellentesque. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Nulla mattis iaculis consectetur.</p>
Run Code Online (Sandbox Code Playgroud)


Ric*_*uen 6

  • 它应该添加p-tags而不是换行符.

通过类似纺织品翻译或Markdown或任何其他适合您需求的人性化标记语言来运行它.

  • 它应该删除像tripple空格一样的空白空间
  • 它应该删除双换行符.
  • 它应该删除标签.
  • 它应该在内容之前删除换行符和空格(如果有的话).
  • 它应该删除内容后的换行符和空格(如果有的话).

何必?当HTML呈现为文档时,多个空格字符会缩减为单个空格,不是吗?你的大部分问题都解决了.