最长和最短的 HTML 字符实体名称是什么?

wwa*_*waw 1 html regex xhtml character-entities web

管子周围有一百万个备忘单,列出了不同版本和规范的 HTML 指定的字符实体的不同理解级别。我不想相信他们中的任何一个,所以我想我会把它扔在这里,看看是否有人发布更权威的答案。

因此,让我们假设我想使用正则表达式匹配任何和所有字符引用和实体。我会从/&(?:#(?:x[0-9a-f]+|[0-9]+)|[a-z]{???,???});/i. 但是什么会进入???s 呢?我可以想到两个字符长的实体,例如ltgt,但是在 HTML 的任何规范中是否有任何单字母实体?同样,最长的实体是什么?最后,除了直接输入它们之外,这些在 HTML 中表达文字字符的仅有的三种语法,不是吗?

Alo*_*hci 5

HTML5 中最长的是&CounterClockwiseContourIntegral;,并且没有一个字母的名称。

但请注意,命名实体引用并不像您想象的那样工作。一些命名的字符引用不以分号结尾,因此正则表达式不会削减芥末。

  • 浏览器一直在尝试修复损坏的标记,并且至少有一种浏览器(可能是 Netscape,当时它拥有多数市场份额)决定,如果作者忘记了分号,那么他们就会为他们修复它。一旦发生这种情况,网页就开始依赖这种行为,其他浏览器也必须效仿,否则页面在他们的浏览器中看起来会被破坏。HTML5 只是记录了浏览器长期以来的实践。 (2认同)