我正在为我的学校做一个项目,我想比较一下骗局邮件.我找到了这个网站:http://www.419scam.org/emails/ 现在我想做的是将每个骗局保存在单独的文档中,然后我可以分析它们.到目前为止,这是我的代码:
import BeautifulSoup, urllib2
address='http://www.419scam.org/emails/'
html = urllib2.urlopen(address).read()
f = open('test.txt', 'wb')
f.write(html)
f.close()
Run Code Online (Sandbox Code Playgroud)
这样就以文本格式保存了整个html文件,现在我想剥离文件并将html链接的内容保存到诈骗中:
<a href="2011-12/01/index.htm">01</a>
<a href="2011-12/02/index.htm">02</a>
<a href="2011-12/03/index.htm">03</a>
Run Code Online (Sandbox Code Playgroud)
等等
如果我得到了,我仍然需要更进一步,打开另一个href.知道如何在一个python代码中做到这一点?
谢谢!
我目前正在开展一个学校项目,其目标是使用Natural Language Toolkit软件包分析诈骗邮件.基本上我愿意做的是比较不同年份的诈骗并试图找到一个趋势 - 他们的结构如何随着时间而变化.我发现了一个诈骗数据库:http://www.419scam.org/emails/ 我想用python下载链接的内容,但我被卡住了.我的代码到目前为止:
from BeautifulSoup import BeautifulSoup
import urllib2, re
html = urllib2.urlopen('http://www.419scam.org/emails/').read()
soup = BeautifulSoup(html)
links = soup.findAll('a')
links2 = soup.findAll(href=re.compile("index"))
print links2
Run Code Online (Sandbox Code Playgroud)
所以我可以获取链接,但我不知道如何下载内容.有任何想法吗?非常感谢!
我的问题可能很简单,但我真的无法弄清楚我哪里出错了.我想将一个变量从一个函数传递给另一个函数.因此我使用return但是我总是收到一条错误消息,我的变量没有定义.
我的代码是:
url = "http://www.419scam.org/emails/2004-01/30/001378.7.htm"
def FirstStrike(url):
...
return tokens
def analyze(tokens):
...
if __name__ == "__main__":
FirstStrike(url)
analyze(tokens)
Run Code Online (Sandbox Code Playgroud)
如果我运行这个,我收到一条错误消息:NameError:name'tokens'未定义.