我是使用Python 3.6.4和RoboBrowser 0.5.3的初学者。我已经保存了一些HTML网页,并且正在尝试提取页面中的信息。
很可能是错误地,我从beautifulSoup的类似问题中获得了灵感。beautifulSoup解决方案适用于我(BeautifulSoup 4.6.0)。
相反,基于roboBrowser的以下内容似乎无效:
from robobrowser import RoboBrowser
br = RoboBrowser(parser='html.parser')
br.open(open("my_file.html"))
Run Code Online (Sandbox Code Playgroud)
错误:
MissingSchema:无效的URL“ <_io.TextIOWrapper name ='my_file.html'mode ='r'encoding ='UTF-8'>”:未提供任何模式。也许您是说http:// <_io.TextIOWrapper name ='my_file.html'mode ='r'encoding ='UTF-8'>?
我了解该代码应使用基于“ http”的网址。我尝试在文件的绝对路径前添加“ file://”,但无济于事。
有什么方法可以与库进行通信,因为它是本地文件,或者这种功能不是roboBrowser的一部分?