小编use*_*632的帖子

用Python抓取RSS feed

我是Python和编程的新手,所以如果问题非常愚蠢,请原谅.

我一直在逐步学习RSS抓取这个教程,但是当我试图收集相应链接到正在收集的文章的标题时,我得到了Python的"列表索引超出范围"错误.

这是我的代码:

from urllib import urlopen
from BeautifulSoup import BeautifulSoup
import re

source  = urlopen('http://feeds.huffingtonpost.com/huffingtonpost/raw_feed').read()

title = re.compile('<title>(.*)</title>')
link = re.compile('<link>(.*)</link>')

find_title = re.findall(title, source)
find_link = re.findall(link, source)

literate = []
literate[:] = range(1, 16)

for i in literate:
    print find_title[i]
    print find_link[i]

Run Code Online (Sandbox Code Playgroud)

这时候我只告诉它来获取冠军,但立即引发时,我想检索标题索引错误执行罚款和其对应的链接.

任何帮助将不胜感激.

python regex rss screen-scraping

use*_*632

lucky-day

3
推荐指数

1
解决办法

5645
查看次数