小编Ret*_*lux的帖子

我希望从 sec.gov 网站上抓取大量文件，到目前为止进展顺利。问题是旧文件采用 .txt 格式，并且没有任何真正的 HTML 格式。有什么方法可以使用Python从这些文件中获取信息吗？

我有大约 30,000 个这样的人要做，而旧文档是我老板真正想要的......我目前正在使用 BeautifulSoup4 来处理其他格式正确的片段。

提前致谢！

-1
推荐指数

1
解决办法

1万
查看次数

小编Ret_lux的帖子