Python过滤/删除列表中的URL

Rai*_*Son 5 python url list filter

我有一个URL的文本文件,大约14000.以下是几个例子:

http://www.domainname.com/pagename?CONTENT_ITEM_ID=100m2=123
http://www.domainname.com/images?IMAGE_ID=10
http://www.domainname.com/pagename?CONTENT_ITEM_ID=101m2=123
http ://www.domainname.com/images?IMAGE_ID = 11
http://www.domainname.com/pagename?CONTENT_ITEM_ID=102m2=123

我已将文本文件加载到Python列表中,并且我尝试将所有与CONTENT_ITEM_ID分隔开的URL分离为自己的列表.在Python中执行此操作的最佳方法是什么?

干杯

bob*_*nce 21

这是Graeme的另一种替代方法,使用更新的列表解析语法:

list2= [line for line in file if 'CONTENT_ITEM_ID' in line]
Run Code Online (Sandbox Code Playgroud)

您更喜欢的是味道问题!


Bla*_*rad 6

我喜欢@ bobince的答案(+1),但会提高赌注.

由于您有一个相当大的起始集,您可能希望避免将整个列表加载到内存中.除非您需要其他内容的整个列表,否则您可以使用Python生成器表达式通过逐项构建已过滤的列表来执行相同的任务:

for filtered_url in (line for line in file if 'CONTENT_ITEM_ID' in line):
   do_something_with_filtered_url(filtered_url)
Run Code Online (Sandbox Code Playgroud)


Gra*_*row 5

list2 = filter( lambda x: x.find( 'CONTENT_ITEM_ID ') != -1,  list1 )
Run Code Online (Sandbox Code Playgroud)

过滤器调用list1(第二个参数)的每个元素上的函数(第一个参数).如果函数返回true(非零),则将元素复制到输出列表.

lambda基本上创建了一个临时的未命名函数.这只是为了避免必须创建一个函数然后传递它,如下所示:

function look_for_content_item_id( elem ):
    if elem.find( 'CONTENT_ITEM_ID') == -1:
        return 0
    return 1
list2 = filter( look_for_content_item_id, list1 )
Run Code Online (Sandbox Code Playgroud)


Mar*_*rot 5

为了完整; 你也可以使用ifilter.它就像过滤器,但没有建立一个列表.

from itertools import ifilter

for line in ifilter(lambda line: 'CONTENT_ITEM_ID' in line, urls):
    do_something(line)
Run Code Online (Sandbox Code Playgroud)