Ret*_*lux -1 python beautifulsoup web-scraping python-3.x
我希望从 sec.gov 网站上抓取大量文件,到目前为止进展顺利。问题是旧文件采用 .txt 格式,并且没有任何真正的 HTML 格式。有什么方法可以使用Python从这些文件中获取信息吗?
我有大约 30,000 个这样的人要做,而旧文档是我老板真正想要的......我目前正在使用 BeautifulSoup4 来处理其他格式正确的片段。
提前致谢!
小智 5
如果您能够获取文本文件,您应该只需要基本的文本文件解析。
像这样的东西应该适合您的目的: http://www.pythonforbeginners.com/files/reading-and-writing-files-in-python
具体来说,要打开本地的文件,可以使用如下命令:
file = open("newfile.txt", "r")
Run Code Online (Sandbox Code Playgroud)
其中第一个参数是文件的名称,第二个参数是您要打开文件的模式(“r”代表读取)。然后,您可以使用 file.read()、file.readline() 或 file.readlines() 等各种方法从文本文件中获取字符。
如果您想专门从文本文件中读取单词,请查看读取文本文件并将其拆分为 python 中的单个单词。那里的答案向您展示了如何迭代与 python 脚本位于同一目录中的文本文件中的所有单词。
with open('words.txt','r') as f:
for line in f:
for word in line.split():
print(word)
Run Code Online (Sandbox Code Playgroud)
如果您没有本地下载的文件,但有 URL,这也应该对您有所帮助:在 Python 中,给定文本文件的 URL,读取文本文件内容的最简单方法是什么?
您正在寻找的该链接中的具体部分是这样的:
import urllib2 # the lib that handles the url stuff
data = urllib2.urlopen(target_url) # it's a file like object and works just like a file
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
13957 次 |
| 最近记录: |