我使用以下正则表达式匹配URL:
$search = "/([\S]+\.(MUSEUM|TRAVEL|AERO|ARPA|ASIA|COOP|INFO|NAME|BIZ|CAT|COM|INT|JOBS|NET|ORG|PRO|TEL|AC|AD|AE|AF|AG|AI|AL|AM|AN|AO|AQ|AR|AS|AT|AU|au|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BJ|BL|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|EH|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|IO|IQ|IR|IS|IT|JE|JM|JO|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MF|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MV|MW|MX|MY|MZ|NA|NC|NE|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TF|TG|TH|TJ|TK|TL|TM|TN|TO|R|H|TP|TR|TT|TV|TW|TZ|UA|UG|UK|UM|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|YE|YT|YU|ZA|ZM|ZW)([\S]*))/i";
Run Code Online (Sandbox Code Playgroud)
但它有点搞砸了,因为它也匹配我不想要的"abc.php".和abc ...测试.我希望它能匹配abc.com.和www.abc.com以及http://abc.com.
它只需要在结尾略微调整,但我不确定是什么.(在任何域名之后应该有一个斜杠,它现在没有检查,它只是检查\ S)
感谢您的时间.
Bol*_*wyn 19
$search = "#^((?#
the scheme:
)(?:https?://)(?#
second level domains and beyond:
)(?:[\S]+\.)+((?#
top level domains:
)MUSEUM|TRAVEL|AERO|ARPA|ASIA|EDU|GOV|MIL|MOBI|(?#
)COOP|INFO|NAME|BIZ|CAT|COM|INT|JOBS|NET|ORG|PRO|TEL|(?#
)A[CDEFGILMNOQRSTUWXZ]|B[ABDEFGHIJLMNORSTVWYZ]|(?#
)C[ACDFGHIKLMNORUVXYZ]|D[EJKMOZ]|(?#
)E[CEGHRSTU]|F[IJKMOR]|G[ABDEFGHILMNPQRSTUWY]|(?#
)H[KMNRTU]|I[DELMNOQRST]|J[EMOP]|(?#
)K[EGHIMNPRWYZ]|L[ABCIKRSTUVY]|M[ACDEFGHKLMNOPQRSTUVWXYZ]|(?#
)N[ACEFGILOPRUZ]|OM|P[AEFGHKLMNRSTWY]|QA|R[EOSUW]|(?#
)S[ABCDEGHIJKLMNORTUVYZ]|T[CDFGHJKLMNOPRTVWZ]|(?#
)U[AGKMSYZ]|V[ACEGINU]|W[FS]|Y[ETU]|Z[AMW])(?#
the path, can be there or not:
)(/[a-z0-9\._/~%\-\+&\#\?!=\(\)@]*)?)$#i";
Run Code Online (Sandbox Code Playgroud)
刚清理了一下.这将匹配只有当你从IANA正确复制所有顶级域名,只有那些规范(将HTTP(S)的地址,并且,只要不匹配http://localhost
),并用该http://
声明.
最后,你应该以路径部分结束,它始终以/开头,如果它在那里.
但是,我建议你跟随Cerebrus:如果你不确定这一点,可以用更温和的方式学习regexps,并使用经过验证的模式来完成复杂的任务.
干杯,
顺便说一下:你的正则表达式也匹配something.r
和something.h
(在你的例子中| TO |和| TR |之间).我把它们留在我的版本中,因为我猜这是一个错字.
重新阅读问题:改变
)(?:https?://)(?#
Run Code Online (Sandbox Code Playgroud)
至
)(?:https?://)?(?#
Run Code Online (Sandbox Code Playgroud)
(有一个?
额外的)匹配没有方案的'URL'.
小智 12
不完全是OP所要求的,但这是一个更简单的正则表达式,每次IANA引入新TLD时都不需要更新.我相信这对于大多数简单的需求来说更合适:
^(?:https?://)?(?:[\w]+\.)(?:\.?[\w]{2,})+$
Run Code Online (Sandbox Code Playgroud)
没有TLD列表,localhost不匹配,子部分的数量必须> = 2且每个子部分的长度必须> = 2(fx:"aa"将不匹配,但"a.ab"将匹配).
这个问题很难找到答案.我发现的正则表达式太复杂,无法理解,而且任何正则表达式都是矫枉过正而且难以实现.
最后得出:
/(\S+\.(com|net|org|edu|gov)(\/\S+)?)/
Run Code Online (Sandbox Code Playgroud)
工程与http://example.com
,https://example.com
,example.com
,http://example.com/foo
.
说明:
小智 5
这将获得整个网址,包括?=和#/(如果存在):
/[A-Za-z]+:\/\/[A-Za-z0-9\-_]+\.[A-Za-z0-9\-_:%&;\?\#\/.=]+/g
Run Code Online (Sandbox Code Playgroud)