小编Ken*_*awa的帖子

Python:在<br/>之前的</span>之后提取文本

这是我要处理的 html 文件:

<span class="pl">Countries:</span> USA <br/>
<span class="pl">Language:</span> English <br/>
Run Code Online (Sandbox Code Playgroud)

这是我的python代码:

from bs4 import BeautifulSoup

record=[]
soup=BeautifulSoup(html)
spans=soup.find_all('span')
for span in spans:
   record.append(span.text)
Run Code Online (Sandbox Code Playgroud)

我最终得到的是:

Countries: Language:
Run Code Online (Sandbox Code Playgroud)

结果漏掉了一些重要信息:“USA”和“English” 我怎样才能得到文本?

html python beautifulsoup

1
推荐指数
1
解决办法
1769
查看次数

Python:如何使用BeautifulSoup在<li>中获取文本

这是我要处理的html文件:

<ul class="canTouch" data-com="hrefTo,href:'/movie/246286?_v_=yes'">
    <li class='c1'>
        <b>Important text</b>
        <br><em>useless text </em><em style="margin-left: .1rem">useless text</em>
    </li>
    <li class="c2 ">
        <b>938.6</b><br/>
    </li>
    <li class="c3 ">19.7%</li>
    <li class="c4 ">19.6%</li>
    <li class="c5 ">
        <span style="margin-right:-.1rem">8.6%</span>
        <span style="padding-right:.24rem" class="_more"></span>
    </li>
</ul>
Run Code Online (Sandbox Code Playgroud)

文件中有很多ul标签,这是我的代码:

for ul in soup.find_all('ul')[3:]:
lis=ul.find_all('li')
for elem in lis:
    records.append(elem.text.strip())
Run Code Online (Sandbox Code Playgroud)

我不希望em标签中的无用文本,li但我需要标签中的重要文本b:

<li class='c1'>
    <b>Important text</b>
    <br><em>useless text<em style="margin-left: .1rem">useless text</em>
 </li>
Run Code Online (Sandbox Code Playgroud)

我该怎么办?

html python beautifulsoup html-parsing

1
推荐指数
1
解决办法
1766
查看次数

如何对某些字符串变量应用sklearn的线性回归

我将使用逻辑回归来预测电影的票房.我得到了一些火车数据,包括演员和导演.这是我的数据:

Director1|Actor1|300 million
Director2|Actor2|500 million
Run Code Online (Sandbox Code Playgroud)

我将使用整数对导演和演员进行编码.

1|1|300 million
2|2|300 million
Run Code Online (Sandbox Code Playgroud)

这意味着X={[1,1],[2,2]} y=[300,500]fit(X,y) 运作的?

python linear-regression scikit-learn dummy-variable

0
推荐指数
1
解决办法
569
查看次数