小编Ret*_*lux的帖子

使用 python 网络抓取 .txt 文件

我希望从 sec.gov 网站上抓取大量文件,到目前为止进展顺利。问题是旧文件采用 .txt 格式,并且没有任何真正的 HTML 格式。有什么方法可以使用Python从这些文件中获取信息吗?

这是示例文档的链接

我有大约 30,000 个这样的人要做,而旧文档是我老板真正想要的......我目前正在使用 BeautifulSoup4 来处理其他格式正确的片段。

提前致谢!

python beautifulsoup web-scraping python-3.x

-1
推荐指数
1
解决办法
1万
查看次数

标签 统计

beautifulsoup ×1

python ×1

python-3.x ×1

web-scraping ×1