小编010*_*001的帖子

编写一个python脚本,递归遍历页面上的链接

我正在为我的学校做一个项目,我想比较一下骗局邮件.我找到了这个网站:http://www.419scam.org/emails/ 现在我想做的是将每个骗局保存在单独的文档中,然后我可以分析它们.到目前为止,这是我的代码:

import BeautifulSoup, urllib2

address='http://www.419scam.org/emails/'
html = urllib2.urlopen(address).read()
f = open('test.txt', 'wb')
f.write(html)
f.close()

Run Code Online (Sandbox Code Playgroud)

这样就以文本格式保存了整个html文件,现在我想剥离文件并将html链接的内容保存到诈骗中:

<a href="2011-12/01/index.htm">01</a> 
<a href="2011-12/02/index.htm">02</a> 
<a href="2011-12/03/index.htm">03</a>

Run Code Online (Sandbox Code Playgroud)

等等

如果我得到了,我仍然需要更进一步,打开另一个href.知道如何在一个python代码中做到这一点？

谢谢!

python

010*_*001

2012 11-06

4
推荐指数

1
解决办法

7822
查看次数

从Python下载URL中的文本

我目前正在开展一个学校项目,其目标是使用Natural Language Toolkit软件包分析诈骗邮件.基本上我愿意做的是比较不同年份的诈骗并试图找到一个趋势 - 他们的结构如何随着时间而变化.我发现了一个诈骗数据库:http://www.419scam.org/emails/ 我想用python下载链接的内容,但我被卡住了.我的代码到目前为止:

from BeautifulSoup import BeautifulSoup
import urllib2, re

html = urllib2.urlopen('http://www.419scam.org/emails/').read()
soup = BeautifulSoup(html)
links = soup.findAll('a')

links2 = soup.findAll(href=re.compile("index"))

print links2

Run Code Online (Sandbox Code Playgroud)

所以我可以获取链接,但我不知道如何下载内容.有任何想法吗？非常感谢!

python web-scraping

010*_*001

2012 11-05

2
推荐指数

1
解决办法

4489
查看次数

python中的变量范围

我的问题可能很简单,但我真的无法弄清楚我哪里出错了.我想将一个变量从一个函数传递给另一个函数.因此我使用return但是我总是收到一条错误消息,我的变量没有定义.

我的代码是:

url = "http://www.419scam.org/emails/2004-01/30/001378.7.htm"

def FirstStrike(url):
    ...
    return tokens

def analyze(tokens):
    ...

if __name__ == "__main__":
    FirstStrike(url)
    analyze(tokens)

Run Code Online (Sandbox Code Playgroud)

如果我运行这个,我收到一条错误消息:NameError:name'tokens'未定义.

python variables scope

010*_*001

2012 06-09

1
推荐指数

1
解决办法

116
查看次数