Vas*_*kar 2 python beautifulsoup html-parsing
我编写了一个脚本来解析html并仅打印文本内容.我想忽略标签.但我的程序有问题.我不确定它是什么.请帮我.
import urllib.request
import re
from bs4 import BeautifulSoup
url = "www.example.com"
def hi():
dep = urllib.request.urlopen(url)
soup = BeautifulSoup(dep, 'html.parser')
for link in soup.find_all('p', string=True):
result = re.sub(b'<.*?>', "", link)
print (result)
hi()
Run Code Online (Sandbox Code Playgroud)
网站链接.
我相信,你NavigableString的link变量.
强制将其强制转换为字符串:
for link in soup.find_all('p', string=True):
result = re.sub(b'<.*?>', "", str(link))
print (result)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
41705 次 |
| 最近记录: |