带状URL - Python

Nat*_*ume 2 python regex url strip

好吧我如何使用正则表达式删除http AND/OR www只是为了获得http://www.domain.com/domain.com

假设x为任何类型的TLD或cTLD

输入示例:

HTTP://www.domain.x/

www.domain.x

输出:

domain.x

pyf*_*unc 7

不要使用正则表达式,使用urlparse来获取netloc

>>> x = 'http://www.domain.com/'
>>> from urlparse import urlparse
>>> o = urlparse(x)
>>> o
ParseResult(scheme='http', netloc='www.domain.com', path='/', params='', query='', fragment='')
>>> 
Run Code Online (Sandbox Code Playgroud)

然后

>>> o.netloc
'www.domain.com'
>>> if o.netloc.startswith('www.'): print o.netloc[4:]
... 
domain.com
>>> 
Run Code Online (Sandbox Code Playgroud)

  • `o.netloc.startswith('www.')`比o.netloc中的`'www'更合适 (3认同)