如何使用python截断域"com"旁边的以下URL.即你只是tube.com
youtube.com/video/AiL6nL
yahoo.com/video/Hhj9B2
youtube.com/video/MpVHQ
google.com/video/PGuTN
youtube.com/video/VU34MI
Run Code Online (Sandbox Code Playgroud)
有可能像这样截断吗?
看看Pythons urlparse图书馆.它是一个标准库,因此无需安装任何其他内容.
所以你可以做到以下几点:
import urlparse
import re
def check_and_add_http(url):
# checks if 'http://' is present at the start of the URL and adds it if not.
http_regex = re.compile(r'^http[s]?://')
if http_regex.match(url):
# 'http://' or 'https://' is present
return url
else:
# add 'http://' for urlparse to work.
return 'http://' + url
for url in url_list:
url = check_and_add_http(url)
print(urlparse.urlsplit(url)[1])
Run Code Online (Sandbox Code Playgroud)
urlsplit()如果要阅读URL的其他部分,可以在文档中阅读更多信息,包括索引.