维基百科(MediaWiki)URI编码方案

par*_*rsa 7 encoding mediawiki uri wikipedia

维基百科(或一般的MediaWiki)如何编码URI中的页面标题?这不是普通的URI编码,因为空格被下划线替换,双引号不编码等类似的东西.

lon*_*day 7

这个过程非常复杂,并不完全漂亮.你需要查看Title找到的课程includes/Title.php.您应该从newFromText方法开始,但大部分逻辑都在secureAndSplit方法中.

请注意(与MediaWiki一样)代码没有丝毫解耦.如果要复制它,则需要提取逻辑而不是简单地重用类.

逻辑看起来像这样:

  • 解码字符引用(例如é)
  • 将空格转换为下划线
  • 检查标题是否是对命名空间或interwiki的引用
  • 删除哈希片段(例如 Apple#Name
  • 删除禁用的字符
  • 禁止子目录链接(例如../directory/page)
  • 禁止三重波浪序列(~~~)(由于某种原因)
  • 将大小限制为255个字节
  • 将第一个字母大写

此外,我相信我说的是引号不需要由原始用户编码 - 浏览器可以透明地处理它们.

我希望有所帮助!


Zyg*_*unt 6

http://en.wikipedia.org/wiki/Wikipedia:Naming_conventions_%28technical_restrictions%29 - 在这里,您对引擎对文章名称的强制执行了一些描述.

他们应该在他们的LocalSettings.php中有这样的东西:$ wgArticlePath ='/ wiki/$ 1';

和适当的服务器URI重写配置 - 他们似乎使用Apache(HTTP标头),所以它可能是mod_rewrite.http://www.mediawiki.org/wiki/Manual:Short_URL

你也可以参考index.php文件获取维基百科上的文章,如下所示:http://en.wikipedia.org/w/index.php?title=Foo%20bar并由引擎重定向到http://en.wikipedia.org/wiki/Foo_bar.在幕后,mod_rewrite将其转换为/index.php?title=Foo_bar.对于MediaWiki引擎,它与您访问时相同 http://en.wikipedia.org/w/index.php?title=Foo_bar- 此页面不会重定向您.