这是我要处理的 html 文件:
<span class="pl">Countries:</span> USA <br/>
<span class="pl">Language:</span> English <br/>
Run Code Online (Sandbox Code Playgroud)
这是我的python代码:
from bs4 import BeautifulSoup
record=[]
soup=BeautifulSoup(html)
spans=soup.find_all('span')
for span in spans:
record.append(span.text)
Run Code Online (Sandbox Code Playgroud)
我最终得到的是:
Countries: Language:
Run Code Online (Sandbox Code Playgroud)
结果漏掉了一些重要信息:“USA”和“English” 我怎样才能得到文本?
这是我要处理的html文件:
<ul class="canTouch" data-com="hrefTo,href:'/movie/246286?_v_=yes'">
<li class='c1'>
<b>Important text</b>
<br><em>useless text </em><em style="margin-left: .1rem">useless text</em>
</li>
<li class="c2 ">
<b>938.6</b><br/>
</li>
<li class="c3 ">19.7%</li>
<li class="c4 ">19.6%</li>
<li class="c5 ">
<span style="margin-right:-.1rem">8.6%</span>
<span style="padding-right:.24rem" class="_more"></span>
</li>
</ul>
Run Code Online (Sandbox Code Playgroud)
文件中有很多ul标签,这是我的代码:
for ul in soup.find_all('ul')[3:]:
lis=ul.find_all('li')
for elem in lis:
records.append(elem.text.strip())
Run Code Online (Sandbox Code Playgroud)
我不希望em标签中的无用文本,li但我需要标签中的重要文本b:
<li class='c1'>
<b>Important text</b>
<br><em>useless text<em style="margin-left: .1rem">useless text</em>
</li>
Run Code Online (Sandbox Code Playgroud)
我该怎么办?
我将使用逻辑回归来预测电影的票房.我得到了一些火车数据,包括演员和导演.这是我的数据:
Director1|Actor1|300 million
Director2|Actor2|500 million
Run Code Online (Sandbox Code Playgroud)
我将使用整数对导演和演员进行编码.
1|1|300 million
2|2|300 million
Run Code Online (Sandbox Code Playgroud)
这意味着X={[1,1],[2,2]} y=[300,500]和fit(X,y)
运作的?