友好网址的安全字符

Pau*_*ulo 156 url friendly-url

我需要建立一个有文章的网站,我想为它制作友好的URL,例如页面的URL

标题:文章测试

应该成为:http://www.example.com/articles/article_test.

当然我需要删除标题中的一些字符,?或者#,但我不确定要删除哪些字符.

谁能告诉我哪些角色可以保存?

Ski*_*ead 194

引用RFC 3986的 2.3节:

"URI中允许但没有保留目的的字符称为未保留字符.这些字符包括大写和小写字母,十进制数字,连字符,句点,下划线和波浪号."

ALPHA  DIGIT  "-" / "." / "_" / "~"
Run Code Online (Sandbox Code Playgroud)

请注意,RFC 3986列出的保留标点符号少于旧版RFC 2396.

  • 您的读者是葡萄牙语,因此请使用葡萄牙语. (7认同)
  • @Mohamad:不,仅限ASCII,尽管UTF-8支持越来越好. (6认同)
  • 由于所引用的文件非常旧,这篇文章也是如此。只是想知道这是否仍然有效或者我们有任何更新的文件。 (2认同)

Gar*_*Ray 101

您需要注意两组字符:保留不安全.

保留的字符是:

  • &符号("&")
  • 美元("$")
  • 加号("+")
  • 逗号(",")
  • 正斜杠("/")
  • 冒号(":")
  • 分号(";")
  • 等于("=")
  • 问号("?")
  • 'at'符号("@")
  • 磅("#").

通常认为不安全的人物是:

  • 空间 (" ")
  • 小于和大于("<>")
  • 打开和关闭括号("[]")
  • 打开和关闭大括号("{}")
  • 管道("|")
  • 反斜杠("\")
  • 插入符号("^")
  • 百分 ("%")

我可能已经忘记了一个或多个,这让我回应了Carl V的回答.从长远来看,你可能最好使用允许字符的"白名单"然后编码字符串,而不是试图及时了解服务器和系统不允许的字符.

  • 其他人似乎不同意代字号`~`是不安全的.你确定是吗? (6认同)
  • 如果处理英语以外的语言,白名单就不那么好了.Unicode只有太多的OK代码点.因此,将不安全的列入黑名单可能是最容易在正则表达式中实现的. (3认同)
  • 我根据这里的答案制作了一个有效的正则表达式:https://regex101.com/r/9VBu66/1,并附有以下注释。1. 第一部分将非 ascii 字符列入黑名单,因此如果您想支持 Unicode,则需要将其删除。 2. 我不会将 `/` 列入黑名单,因为我允许子目录。这是我正在使用的正则表达式: `/([^\x00-\x7F]|[&amp;$\+,:;=\?@#\s&lt;&gt;\[\]\{\}|\\\ ^%])+/` (2认同)

car*_*arl 40

您最好只保留一些字符(白名单),而不是删除某些字符(黑名单).

只要您正确编码,您就可以在技术上允许任何角色.但是,要回答问题的精神,你应该只允许这些字符:

  1. 小写字母(将大写字母转换为小写字母)
  2. 数字,0到9
  3. 破折号 - 或下划线_
  4. Tilde~

其他一切都有潜在的特殊含义.例如,您可能认为可以使用+,但可以用空格替换.并且也很危险,特别是如果使用一些重写规则.

与其他评论一样,请查看标准和规范以获取完整的详细信息.

  • 我今天发现的一个preiod是用于URL安全的Base64编码器的一个糟糕的字符选择,因为在那些罕见的情况下你的编码数据可能产生两个连续的点(".."),这在它指的是父目录. (15认同)
  • 感谢上帝,有人发布了一份没有太多诽谤的名单.至于dot(.) - 正如@pohl所说,不要使用它!这是IIS上另一个奇怪的案例(不知道这是否发生在其他Web服务器上):如果它位于您的URL末尾,您很可能会收到404错误(它会尝试搜索[/ pagename] .页) (8认同)
  • @pohl:如果您的URL用作代码中的文件路径,或者您的Web服务器实际上尝试将URL映射到文件,然后将请求转发到脚本(不幸的是非常常见),那么这只是一个问题. (5认同)
  • 实际上,在我们的例子中使用它作为文件路径是可以的,因为在unix文件中允许在它们的名称中有多个甚至连续的点.对我们来说,问题出现在一个名为Site Scope的监控工具中,它有一个错误(可能是一个天真的正则表达式),它报告虚假的虚假停机时间.对于我们来说,我们被困在旧版本的Site Scope上,管理团队拒绝支付升级费用,而一个非常重要的客户端将Site Scope(不是等效的)写入他们的合同中.不可否认,大多数人都不会发现自己. (4认同)

Bee*_*jor 29

永远安全

这些是安全的(理论上/规范),基本上除了域名以外的任何地方.
百分比编码未列出的任何内容,你很高兴.

    A-Z a-z 0-9 - . _ ~ ( ) ' ! * : @ , ;
Run Code Online (Sandbox Code Playgroud)

有时安全

仅在特定URL组件中使用时才安全; 小心使用.

    Paths:     + & =
    Queries:   ? /
    Fragments: ? / # + & =
Run Code Online (Sandbox Code Playgroud)

绝不安全

根据URI规范(RFC 3986),所有其他字符必须是百分比编码的.这包括:

    <space> <control-characters> <extended-ascii> <unicode>
    % < > [ ] { } | \ ^
Run Code Online (Sandbox Code Playgroud)

如果需要考虑最大兼容性,请将字符集限制为AZ az 0-9 - _.
(仅限文件扩展名的句点).


Phi*_*zen 17

查看RFC3986 - 统一资源标识符(URI):通用语法,您的问题围绕URI 的路径组件.

    foo://example.com:8042/over/there?name=ferret#nose
     \_/   \______________/\_________/ \_________/ \__/
      |           |            |            |        |
   scheme     authority       path        query   fragment
      |   _____________________|__
     / \ /                        \
     urn:example:animal:ferret:nose
Run Code Online (Sandbox Code Playgroud)

引用第3.3节,URI的有效字符segment类型为pchar:

pchar = unreserved/pct-encoded/sub-delims /":"/"@"

其中细分为:

ALPHA / DIGIT / "-" / "." / "_" / "~"

pct-encoded

"!" / "$" / "&" / "'" / "(" / ")" / "*" / "+" / "," / ";" / "="

":" / "@"

或者换句话说:你可以使用来自任何(非控制- )字符的ASCII表,除了 /,?,#,[].

这种理解得到RFC1738 - 统一资源定位器(URL)的支持.

  • 这是理论上正确答案的一个很好的例子,当应用于我们实际生活的现实世界时会导致麻烦。确实,大多数情况下这些字符中的大多数不会引起问题。但是在现实世界中存在代理、路由器、网关、中继等,所有这些都“喜欢”以无视理论标准的方式检查 URL 并与 URL 交互。为了避免这些陷阱,您几乎只能转义除字母数字、破折号、下划线和句点之外的所有内容。 (3认同)
  • @ deltamind106我建议我们尝试让产品遵循标准,而不是告诉开发人员不要.我认为您的警告是值得的,但如果有必要,我们应该尽力报告供应商的违规情况. (2认同)

小智 12

unreserved = ALPHA/DIGIT /" - "/"." /"_"/"〜"

  • 实际上,alpha并不意味着字母数字.字母和数字是2个不同的东西,字母数字是这些东西的组合.他本可以这样写出他的答案:ALPHANUMERIC /" - "/"." /"_"/"〜" (11认同)
  • 不是"ALPHA"意味着"DIGIT"吗?我假设ALPHA是"字母数字"的缩写,而字母数字表示大写,小写和数字. (3认同)
  • RFC 3986 中“未保留”的 ABNF 表示法分别列出了它们。 (2认同)

cha*_*aos 11

从你描述的背景来看,我怀疑你实际上想要做的是一种叫做"SEO slug"的东西.对他们来说最好的一般做法是:

  1. 转换为小写
  2. 将除az和0-9之外的整个字符序列转换为一个连字符( - )(不是下划线)
  3. 从网址中删除"停用词",即"a","an"和"the"之类的无意义索引词.对于广泛的列表,谷歌"停止说话"

因此,作为一个例子,一篇名为"使用!@%$*代表在漫画中咒骂"的文章会得到一个"使用代表 - 咒骂漫画".

  • @chaos 如果您考虑到这一点,您是否仍然建议删除停用词:http://www.seobythesea.com/2008/08/google-stopword-patent/ 另外,您能推荐一个好的停用词列表吗?这是迄今为止我找到的最好的列表 - http://www.link-assistant.com/seo-stop-words.html (2认同)

jos*_*chi 6

URI的格式在RFC 3986中定义.详情请参阅第3.3节.


mpe*_*pen 6

从SEO的角度来看,连字符比下划线更受欢迎.转换为小写,删除所有撇号,然后用单个连字符替换所有非字母数字字符串.从开始和结束开始修剪多余的连字符.