Mar*_*her 13 python email mbox
Python新手在这里.我想通过一个大的mbox文件,解析电子邮件.我可以这样做:
import sys
import mailbox
def gen_summary(filename):
mbox = mailbox.mbox(filename)
for message in mbox:
subj = message['subject']
print subj
if __name__ == "__main__":
if len(sys.argv) != 2:
print 'Usage: python genarchivesum.py mbox'
sys.exit(1)
gen_summary(sys.argv[1])
Run Code Online (Sandbox Code Playgroud)
但我需要更多控制权.我需要能够在mbox文件中获取给定电子邮件的开头的字节位置,并且还需要获取消息中的字节数(如磁盘上所示).然后在未来,而不是从MBOX文件开始迭代,我需要能够寻求到一个给定的消息,只是解析(因此获得的磁盘上的字节位置的需求之一).这些是大型mbox文件,效率是一个问题.
所有这一切的目的是让我可以生成一个摘要文件,其中包含有关mbox中每封电子邮件的一些小部分,然后将来有效地查找mbox中的各个电子邮件.
我没有测试过这个,但是这样的东西可能适合你.只需打开文件(以二进制模式,以便您的字节计数正确),并扫描它,查找消息.
def is_mail_start(line):
return line.startswith("From ")
def build_index(fname):
with open(fname, "rb") as f:
i = 0
b = 0
# find start of first message
for line in f:
b += len(line)
if is_mail_start(line):
break
# find start of each message, and yield up (index, length) of previous message
for line in f:
if is_mail_start(line):
yield (i, b)
i += b
b = 0
b += len(line)
yield (i, b) # yield up (index, length) of last message
# get index as a list
mbox_index = list(build_index(fname))
Run Code Online (Sandbox Code Playgroud)
获得索引后,可以使用.seek()文件对象上的方法在那里进行搜索,并.read(length)在文件对象上只读取一条消息.我不知道你将如何使用mailbox带有字符串的模块; 我认为它适用于就地邮箱.也许你可以使用其他一些邮件解析模块.