我希望从 sec.gov 网站上抓取大量文件,到目前为止进展顺利。问题是旧文件采用 .txt 格式,并且没有任何真正的 HTML 格式。有什么方法可以使用Python从这些文件中获取信息吗?
这是示例文档的链接
我有大约 30,000 个这样的人要做,而旧文档是我老板真正想要的......我目前正在使用 BeautifulSoup4 来处理其他格式正确的片段。
提前致谢!
python beautifulsoup web-scraping python-3.x
beautifulsoup ×1
python ×1
python-3.x ×1
web-scraping ×1