bbcode unparser正则表达式的帮助

Rod*_*igo 2 php regex parsing bbcode

我有这个函数来解析bbcode - > html:

  $this->text = preg_replace(array(
    '/\[b\](.*?)\[\/b\]/ms', 
    '/\[i\](.*?)\[\/i\]/ms',
    '/\[u\](.*?)\[\/u\]/ms',
    '/\[img\](.*?)\[\/img\]/ms',
    '/\[email\](.*?)\[\/email\]/ms',
    '/\[url\="?(.*?)"?\](.*?)\[\/url\]/ms',
    '/\[size\="?(.*?)"?\](.*?)\[\/size\]/ms',
    '/\[youtube\](.*?)\[\/youtube\]/ms',
    '/\[color\="?(.*?)"?\](.*?)\[\/color\]/ms',    
    '/\[quote](.*?)\[\/quote\]/ms',
    '/\[list\=(.*?)\](.*?)\[\/list\]/ms',
    '/\[list\](.*?)\[\/list\]/ms',
    '/\[\*\]\s?(.*?)\n/ms'
   ),array(
    '<strong>\1</strong>',
    '<em>\1</em>',
    '<u>\1</u>',
    '<img src="\1" alt="\1" />',
    '<a href="mailto:\1">\1</a>',
    '<a href="\1">\2</a>',
    '<span style="font-size:\1%">\2</span>',
    '<object width="450" height="350"><param name="movie" value="\1"></param><param name="allowFullScreen" value="true"></param><param name="allowscriptaccess" value="always"></param><embed src="\1" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="450" height="350"></embed></object>',
    '<span style="color:\1">\2</span>',
    '<blockquote>\1</blockquote>',
    '<ol start="\1">\2</ol>',
    '<ul>\1</ul>',
    '<li>\1</li>'
   ),$original);
Run Code Online (Sandbox Code Playgroud)

问题是,如何解析这个,比如html - > bbcode?

我的正则表达能力很差:(

谢谢.

Cha*_*les 7

别.

而是存储原始未解析文本和处理过的已解析文本.是的,这使存储需求增加了一倍,但它也使得它非常容易:

  1. 允许用户编辑原始文件而无需解析BBCode
  2. 允许引用其他用户帖子,无需解析
  3. 更改每个BBCode生成的HTML(只需重新解析每个帖子)
  4. 切换BBCode引擎(再次,只需重新解析每个帖子)


Wri*_*ken 5

可以很自然地说, 用一大堆正则表达式构建一个可靠的方法将html转换为bbcode 是不可能的.使用解析器(例如DOMDocument),使用xpath和检查删除无效元素和属性,然后递归遍历它在路上创建bbcode字符串(或者只是忽略路上的无效标记/属性).