wwa*_*waw 1 html regex xhtml character-entities web
管子周围有一百万个备忘单,列出了不同版本和规范的 HTML 指定的字符实体的不同理解级别。我不想相信他们中的任何一个,所以我想我会把它扔在这里,看看是否有人发布更权威的答案。
因此,让我们假设我想使用正则表达式匹配任何和所有字符引用和实体。我会从/&(?:#(?:x[0-9a-f]+|[0-9]+)|[a-z]{???,???});/i. 但是什么会进入???s 呢?我可以想到两个字符长的实体,例如lt和gt,但是在 HTML 的任何规范中是否有任何单字母实体?同样,最长的实体是什么?最后,除了直接输入它们之外,这些是在 HTML 中表达文字字符的仅有的三种语法,不是吗?
HTML5 中最长的是∳,并且没有一个字母的名称。
但请注意,命名实体引用并不像您想象的那样工作。一些命名的字符引用不以分号结尾,因此正则表达式不会削减芥末。