Beautifulsoup Python 无法从网站抓取数据

Sim*_*uja 5 python beautifulsoup

我一直在使用 Python Beautifulsoup 来抓取数据。至此已经成功刮取。但坚持使用以下网站。

目标站点:LyricsHindiSong

我的目标是从提到的网站上抓取歌词。但它总是给出空白结果或 Nonetype 对象没有属性类型错误。

自过去 15 天以来一直在苦苦挣扎,无法弄清楚问题出在哪里以及如何解决?

以下是我正在使用的代码。

import pymysql
import requests
from bs4 import Beautifulsoup

r=requests.get("https://www.lyricshindisong.in/2020/04/chnda-re-chnda-re-chhupe-rahana.html")
soup=Beautifulsoup(r.content,'html5lib')
pageTitle=soup.find('h1').text.strip()
targetContent=soup.find('div',{'style':'margin:25px; color:navy;font-size:18px;'})
print(pageTitle)
print(targetContent.text.strip())
Run Code Online (Sandbox Code Playgroud)

它打印错误 nonetype 对象没有文本错误。如果我检查检查窗口,元素同时存在两个元素。无法理解问题出在哪里。至少它应该打印标题页。

希望你明白我的要求。请指导我。谢谢。

cl0*_*zed 4

您在 lib 中的类名中犯了一个错误bs4,并使用了find方法而不是find_all

\n\n

完整代码:

\n\n
import requests\nfrom bs4 import BeautifulSoup\n\n\nurl = "https://www.lyricshindisong.in/2020/04/chnda-re-chnda-re-chhupe-rahana.html"\nresponse = requests.get(url)\n\nsoup = BeautifulSoup(response.content,\'html5lib\')\n\ntitle = soup.find(\'h1\').text.strip()\ncontent = soup.find_all(\'div\',{\'style\':\'margin:25px; color:navy;font-size:18px;\'})\n\nprint(title)\n\nfor line in content:\n    print(line.text.strip())\n\n
Run Code Online (Sandbox Code Playgroud)\n\n

结果:

\n\n
python answer.py\nChnda Re Chnda Re Chhupe Rahana\n\xe0\xa4\x9a\xe0\xa4\x82\xe0\xa4\xa6\xe0\xa4\xbe \xe0\xa4\xb0\xe0\xa5\x87, \xe0\xa4\x9a\xe0\xa4\x82\xe0\xa4\xa6\xe0\xa4\xbe \xe0\xa4\xb0\xe0\xa5\x87, \xe0\xa4\x9b\xe0\xa5\x81\xe0\xa4\xaa\xe0\xa5\x87 \xe0\xa4\xb0\xe0\xa4\xb9\xe0\xa4\xa8\xe0\xa4\xbe\xe0\xa4\xb8\xe0\xa5\x8b\xe0\xa4\xaf\xe0\xa5\x87 \xe0\xa4\xae\xe0\xa5\x87\xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xae\xe0\xa5\x88\xe0\xa4\xa8\xe0\xa4\xbe, \xe0\xa4\xb2\xe0\xa5\x87\xe0\xa4\x95\xe0\xa5\x87 \xe0\xa4\xae\xe0\xa5\x87\xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xa8\xe0\xa4\xbf\xe0\xa4\x82\xe0\xa4\xa6\xe0\xa4\xbf\xe0\xa4\xaf\xe0\xa4\xbe \xe0\xa4\xb0\xe0\xa5\x87\n\xe0\xa4\xab\xe0\xa5\x82\xe0\xa4\xb2 \xe0\xa4\x9a\xe0\xa4\xae\xe0\xa5\x87\xe0\xa4\xb2\xe0\xa5\x80 \xe0\xa4\xa7\xe0\xa5\x80\xe0\xa4\xb0\xe0\xa5\x87 \xe0\xa4\xae\xe0\xa4\xb9\xe0\xa4\x95\xe0\xa5\x8b, \xe0\xa4\x9d\xe0\xa5\x8b\xe0\xa4\x95\xe0\xa4\xbe \xe0\xa4\xa8\xe0\xa4\xbe \xe0\xa4\xb2\xe0\xa4\x97\xe0\xa4\xbe \xe0\xa4\x9c\xe0\xa4\xbe\xe0\xa4\xaf\xe0\xa5\x87 \xe0\xa4\xa8\xe0\xa4\xbe\xe0\xa4\x9c\xe0\xa5\x81\xe0\xa4\x95 \xe0\xa4\xa1\xe0\xa4\xbe\xe0\xa4\xb2\xe0\xa5\x80 \xe0\xa4\x95\xe0\xa4\x9c\xe0\xa4\xb0\xe0\xa4\xbe\xe0\xa4\xb5\xe0\xa4\xbe\xe0\xa4\xb2\xe0\xa5\x80 \xe0\xa4\xb8\xe0\xa4\xaa\xe0\xa4\xa8\xe0\xa5\x87 \xe0\xa4\xae\xe0\xa5\x87\xe0\xa4\x82 \xe0\xa4\xae\xe0\xa5\x81\xe0\xa4\xb8\xe0\xa5\x8d\xe0\xa4\x95\xe0\xa4\xbe\xe0\xa4\xaf\xe0\xa5\x87 \xe0\xa4\xb2\xe0\xa5\x87\xe0\xa4\x95\xe0\xa5\x87 \xe0\xa4\xae\xe0\xa5\x87\xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xa8\xe0\xa4\xbf\xe0\xa4\x82\xe0\xa4\xa6\xe0\xa4\xbf\xe0\xa4\xaf\xe0\xa4\xbe \xe0\xa4\xb0\xe0\xa5\x87\n\xe0\xa4\xb9\xe0\xa4\xbe\xe0\xa4\xa5 \xe0\xa4\x95\xe0\xa4\xb9\xe0\xa5\x80\xe0\xa4\x82 \xe0\xa4\xb9\xe0\xa5\x88, \xe0\xa4\xaa\xe0\xa4\xbe\xe0\xa4\x81\xe0\xa4\xb5 \xe0\xa4\x95\xe0\xa4\xb9\xe0\xa5\x80\xe0\xa4\x82 \xe0\xa4\xb9\xe0\xa5\x88, \xe0\xa4\xb2\xe0\xa4\xbe\xe0\xa4\x97\xe0\xa5\x87 \xe0\xa4\xaa\xe0\xa5\x8d\xe0\xa4\xaf\xe0\xa4\xbe\xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xaa\xe0\xa5\x8d\xe0\xa4\xaf\xe0\xa4\xbe\xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xae\xe0\xa4\xae\xe0\xa4\xa4\xe0\xa4\xbe \xe0\xa4\x97\xe0\xa4\xbe\xe0\xa4\x8f, \xe0\xa4\xaa\xe0\xa4\xb5\xe0\xa4\xa8 \xe0\xa4\x9d\xe0\xa5\x81\xe0\xa4\xb2\xe0\xa4\xbe\xe0\xa4\xaf\xe0\xa5\x87, \xe0\xa4\x9d\xe0\xa5\x82\xe0\xa4\xb2\xe0\xa5\x87 \xe0\xa4\xb0\xe0\xa4\xbe\xe0\xa4\x9c\xe0\xa4\x95\xe0\xa5\x81\xe0\xa4\xae\xe0\xa4\xbe\xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xb2\xe0\xa5\x87\xe0\xa4\x95\xe0\xa5\x87 \xe0\xa4\xae\xe0\xa5\x87\xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xa8\xe0\xa4\xbf\xe0\xa4\x82\xe0\xa4\xa6\xe0\xa4\xbf\xe0\xa4\xaf\xe0\xa4\xbe \xe0\xa4\xb0\xe0\xa5\x87  \n
Run Code Online (Sandbox Code Playgroud)\n