相关疑难解决方法(0)

使用BeautifulSoup提取没有标签的文本

我的网页是这样的 -

<p>
  <strong class="offender">YOB:</strong> 1987<br/>
  <strong class="offender">RACE:</strong> WHITE<br/>
  <strong class="offender">GENDER:</strong> FEMALE<br/>
  <strong class="offender">HEIGHT:</strong> 5'05''<br/>
  <strong class="offender">WEIGHT:</strong> 118<br/>
  <strong class="offender">EYE COLOR:</strong> GREEN<br/>
  <strong class="offender">HAIR COLOR:</strong> BROWN<br/>
</p>
Run Code Online (Sandbox Code Playgroud)

我要提取的信息对每个人,并得到了YOB:1987,RACE:WHITE等....

我试过的是 -

subc = soup.find_all('p')
subc1 = subc[1]
subc2 = subc1.find_all('strong')
Run Code Online (Sandbox Code Playgroud)

但是,这给我的唯一的值YOB:,RACE:

有没有一种方法,我可以得到的数据YOB:1987,RACE:WHITE格式?

python beautifulsoup web-scraping

39
推荐指数
2
解决办法
11万
查看次数

HTML内容提取的最新技术是什么?

HTML内容提取方面有很多学术工作,例如Gupta&Kaiser(2005)从可访问网页中提取内容,以及一些感兴趣的迹象,例如,,,但我不是很清楚后者的实践如何反映前者的思想.什么是最佳做法?

指向良好(特别是开源)实现的指针以及对实现的良好学术调查将是我正在寻找的那种东西.

后记第一:准确地说,我所追求的那种调查将是一篇论文(已发表,未发表,无论如何),它讨论了学术文献中的两个标准,以及一些现有的实施,并分析了实施的不成功之处.从标准的角度来看.而且,真的,邮件列表的帖子对我也有用.

后记第二章要明确一点,在Peter Rowell的答案之后,我已经接受了,我们可以看到这个问题导致了两个问题:(i)解决了不符合要求的HTML的问题,其中最好推荐使用Beautiful Soup解决方案,以及(ii)未解决的问题或从肉类中分离出来的(主要是现场添加的样板和宣传材料)(认为页面可能有趣的人的内容实际上相关的内容.解决现有技术问题,新的答案需要明确地解决愚蠢的问题.

html text-extraction html-content-extraction

18
推荐指数
4
解决办法
5464
查看次数