小编Rin*_*rov的帖子

解析HTML页面以获取<p>和<b>标签的内容

有许多HTML页面被构造为一系列这样的组:

<p>
   <b> Keywords/Category:</b>
   "keyword_a, keyword_b"
</p>

Run Code Online (Sandbox Code Playgroud)

这些页面的地址是一样https://some.page.org/year/0001,https://some.page.org/year/0002等.

如何从每个页面中分别提取关键字？我试过使用BeautifulSoup,但没有成功.我只编写了打印组标题的程序(在<b>和之间</b>).

from bs4 import BeautifulSoup
from urllib2 import urlopen
import re
html_doc = urlopen('https://some.page.org/2018/1234').read()
soup = BeautifulSoup(html_doc)
for link in soup.find_all('a'):
    print 'https://some.page.org'+link.get('href')
for node in soup.findAll('b'):
    print ''.join(node.findAll(text=True))

Run Code Online (Sandbox Code Playgroud)

html python beautifulsoup web-crawler

Rin*_*rov

2019 01-01

5
推荐指数

1
解决办法

490
查看次数