使用 python 网络抓取 .txt 文件

Question

我希望从 sec.gov 网站上抓取大量文件，到目前为止进展顺利。问题是旧文件采用 .txt 格式，并且没有任何真正的 HTML 格式。有什么方法可以使用Python从这些文件中获取信息吗？

我有大约 30,000 个这样的人要做，而旧文档是我老板真正想要的......我目前正在使用 BeautifulSoup4 来处理其他格式正确的片段。

提前致谢！

Answer 1

如果您能够获取文本文件，您应该只需要基本的文本文件解析。

具体来说，要打开本地的文件，可以使用如下命令：

file = open("newfile.txt", "r")

其中第一个参数是文件的名称，第二个参数是您要打开文件的模式（“r”代表读取）。然后，您可以使用 file.read()、file.readline() 或 file.readlines() 等各种方法从文本文件中获取字符。

如果您想专门从文本文件中读取单词，请查看读取文本文件并将其拆分为 python 中的单个单词。那里的答案向您展示了如何迭代与 python 脚本位于同一目录中的文本文件中的所有单词。

with open('words.txt','r') as f:
    for line in f:
        for word in line.split():
           print(word)

您正在寻找的该链接中的具体部分是这样的：

import urllib2  # the lib that handles the url stuff

data = urllib2.urlopen(target_url) # it's a file like object and works just like a file

虽然此链接可以回答问题，但最好在此处包含答案的基本部分并提供链接以供参考。如果链接页面发生更改，仅链接的答案可能会变得无效。- [来自评论](/review/low-quality-posts/12461934) (2认同)