TypeError:期望的字符串或类字节对象

Question

TypeError:期望的字符串或类字节对象

Vas*_*kar 2 python beautifulsoup html-parsing

我编写了一个脚本来解析html并仅打印文本内容.我想忽略标签.但我的程序有问题.我不确定它是什么.请帮我.

import urllib.request
import re
from bs4 import BeautifulSoup
url = "www.example.com"

def hi():
    dep = urllib.request.urlopen(url)
    soup = BeautifulSoup(dep, 'html.parser')
    for link in soup.find_all('p', string=True):
        result = re.sub(b'<.*?>', "", link)
        print (result)
hi()

Run Code Online (Sandbox Code Playgroud)

网站链接.

Answer 1

Nik*_*nyh 7

我相信,你NavigableString的link变量.

强制将其强制转换为字符串:

for link in soup.find_all('p', string=True):
    result = re.sub(b'<.*?>', "", str(link))
    print (result)

Run Code Online (Sandbox Code Playgroud)

`r`是原始的,而不是正则表达式.它有助于正则表达式,因为它们使用`\\`不同于字符串通常如何处理它,但它不是为正则表达式创建的; 它只是意味着原始的. (4认同)

归档时间：	9 年，8 月前
查看次数：	41705 次
最近记录：	8 年，7 月前