小编Ken*_*awa的帖子

Python：在<br/>之前的</span>之后提取文本

这是我要处理的 html 文件：

<span class="pl">Countries:</span> USA <br/>
<span class="pl">Language:</span> English <br/>

Run Code Online (Sandbox Code Playgroud)

这是我的python代码：

from bs4 import BeautifulSoup

record=[]
soup=BeautifulSoup(html)
spans=soup.find_all('span')
for span in spans:
   record.append(span.text)

Run Code Online (Sandbox Code Playgroud)

我最终得到的是：

Countries: Language:

Run Code Online (Sandbox Code Playgroud)

结果漏掉了一些重要信息：“USA”和“English” 我怎样才能得到文本？

html python beautifulsoup

Ken*_*awa

lucky-day

1
推荐指数

1
解决办法

1769
查看次数

Python:如何使用BeautifulSoup在<li>中获取文本

这是我要处理的html文件:

<ul class="canTouch" data-com="hrefTo,href:'/movie/246286?_v_=yes'">
    <li class='c1'>
        <b>Important text</b>
        <br><em>useless text </em><em style="margin-left: .1rem">useless text</em>
    </li>
    <li class="c2 ">
        <b>938.6</b><br/>
    </li>
    <li class="c3 ">19.7%</li>
    <li class="c4 ">19.6%</li>
    <li class="c5 ">
        <span style="margin-right:-.1rem">8.6%</span>
        <span style="padding-right:.24rem" class="_more"></span>
    </li>
</ul>

Run Code Online (Sandbox Code Playgroud)

文件中有很多ul标签,这是我的代码:

for ul in soup.find_all('ul')[3:]:
lis=ul.find_all('li')
for elem in lis:
    records.append(elem.text.strip())

Run Code Online (Sandbox Code Playgroud)

我不希望em标签中的无用文本,li但我需要标签中的重要文本b:

<li class='c1'>
    <b>Important text</b>
    <br><em>useless text<em style="margin-left: .1rem">useless text</em>
 </li>

Run Code Online (Sandbox Code Playgroud)

我该怎么办？

html python beautifulsoup html-parsing

Ken*_*awa

2016 12-20

1
推荐指数

1
解决办法

1766
查看次数

如何对某些字符串变量应用sklearn的线性回归

我将使用逻辑回归来预测电影的票房.我得到了一些火车数据,包括演员和导演.这是我的数据:

Director1|Actor1|300 million
Director2|Actor2|500 million

Run Code Online (Sandbox Code Playgroud)

我将使用整数对导演和演员进行编码.

1|1|300 million
2|2|300 million

Run Code Online (Sandbox Code Playgroud)

这意味着X={[1,1],[2,2]} y=[300,500]和fit(X,y) 运作的？

python linear-regression scikit-learn dummy-variable

Ken*_*awa

2016 07-17

0
推荐指数

1
解决办法

569
查看次数

标签统计

python ×3

beautifulsoup ×2

html ×2

dummy-variable ×1

html-parsing ×1

linear-regression ×1

scikit-learn ×1

Python：在&lt;br/&gt;之前的&lt;/span&gt;之后提取文本

Python:如何使用BeautifulSoup在<li>中获取文本

如何对某些字符串变量应用sklearn的线性回归

标签 统计

小编Ken_awa的帖子

Python：在<br/>之前的</span>之后提取文本

标签统计