我的网页是这样的 -
<p>
<strong class="offender">YOB:</strong> 1987<br/>
<strong class="offender">RACE:</strong> WHITE<br/>
<strong class="offender">GENDER:</strong> FEMALE<br/>
<strong class="offender">HEIGHT:</strong> 5'05''<br/>
<strong class="offender">WEIGHT:</strong> 118<br/>
<strong class="offender">EYE COLOR:</strong> GREEN<br/>
<strong class="offender">HAIR COLOR:</strong> BROWN<br/>
</p>
Run Code Online (Sandbox Code Playgroud)
我要提取的信息对每个人,并得到了YOB:1987,RACE:WHITE等....
我试过的是 -
subc = soup.find_all('p')
subc1 = subc[1]
subc2 = subc1.find_all('strong')
Run Code Online (Sandbox Code Playgroud)
但是,这给我的唯一的值YOB:,RACE:等
有没有一种方法,我可以得到的数据YOB:1987,RACE:WHITE格式?
HTML内容提取方面有很多学术工作,例如Gupta&Kaiser(2005)从可访问网页中提取内容,以及一些感兴趣的迹象,例如,一,二和三,但我不是很清楚后者的实践如何反映前者的思想.什么是最佳做法?
指向良好(特别是开源)实现的指针以及对实现的良好学术调查将是我正在寻找的那种东西.
后记第一:准确地说,我所追求的那种调查将是一篇论文(已发表,未发表,无论如何),它讨论了学术文献中的两个标准,以及一些现有的实施,并分析了实施的不成功之处.从标准的角度来看.而且,真的,邮件列表的帖子对我也有用.
后记第二章要明确一点,在Peter Rowell的答案之后,我已经接受了,我们可以看到这个问题导致了两个问题:(i)解决了不符合要求的HTML的问题,其中最好推荐使用Beautiful Soup解决方案,以及(ii)未解决的问题或从肉类中分离出来的(主要是现场添加的样板和宣传材料)(认为页面可能有趣的人的内容实际上相关的内容.解决现有技术问题,新的答案需要明确地解决愚蠢的问题.