使用 python 网络抓取 .txt 文件

Ret*_*lux -1 python beautifulsoup web-scraping python-3.x

我希望从 sec.gov 网站上抓取大量文件,到目前为止进展顺利。问题是旧文件采用 .txt 格式,并且没有任何真正的 HTML 格式。有什么方法可以使用Python从这些文件中获取信息吗?

这是示例文档的链接

我有大约 30,000 个这样的人要做,而旧文档是我老板真正想要的......我目前正在使用 BeautifulSoup4 来处理其他格式正确的片段。

提前致谢!

小智 5

如果您能够获取文本文件,您应该只需要基本的文本文件解析。

像这样的东西应该适合您的目的: http://www.pythonforbeginners.com/files/reading-and-writing-files-in-python

具体来说,要打开本地的文件,可以使用如下命令:

file = open("newfile.txt", "r")
Run Code Online (Sandbox Code Playgroud)

其中第一个参数是文件的名称,第二个参数是您要打开文件的模式(“r”代表读取)。然后,您可以使用 file.read()、file.readline() 或 file.readlines() 等各种方法从文本文件中获取字符。

如果您想专门从文本文件中读取单词,请查看读取文本文件并将其拆分为 python 中的单个单词。那里的答案向您展示了如何迭代与 python 脚本位于同一目录中的文本文件中的所有单词。

with open('words.txt','r') as f:
    for line in f:
        for word in line.split():
           print(word)  
Run Code Online (Sandbox Code Playgroud)

如果您没有本地下载的文件,但有 URL,这也应该对您有所帮助:在 Python 中,给定文本文件的 URL,读取文本文件内容的最简单方法是什么?

您正在寻找的该链接中的具体部分是这样的:

import urllib2  # the lib that handles the url stuff

data = urllib2.urlopen(target_url) # it's a file like object and works just like a file
Run Code Online (Sandbox Code Playgroud)

  • 虽然此链接可以回答问题,但最好在此处包含答案的基本部分并提供链接以供参考。如果链接页面发生更改,仅链接的答案可能会变得无效。- [来自评论](/review/low-quality-posts/12461934) (2认同)