我有兴趣知道是否有任何开源项目(最好是用Python)可以用来下载(抓取?)Lucene/Hadoop等开源项目的邮件列表档案(例如http:// mail-archives) .apache.org/mod_mbox/lucene-java-user /).我特地寻找为(Apache)邮件列表存档(不是像Scrappy这样的通用爬虫)定制的爬虫/下载器.任何指针都非常感谢.谢谢.
Jos*_*sad 10
通常有下载mbox文件的工具.在您提供的链接中,您可以例如附加mbox名称并直接获取邮件存档.例如,2012年10月的mbox:
http://mail-archives.apache.org/mod_mbox/lucene-java-user/201210.mbox
因此,以编程方式获取档案非常简单.一旦你拥有它们:
import mailbox
mails = mailbox.mbox(filename.mbox)
for message in mails: print message['subject']
Run Code Online (Sandbox Code Playgroud)