使用 Python 解析所有电子邮件正文 html

tit*_*ata 4 python email

基本上,我想使用 Python 从我的 gmail 解析所有电子邮件正文。StackOverflow 上的解决方案很少,例如我找到的最接近的解决方案是这里他使用poplibPython 解析所有电子邮件。另外一个是这一个,他用.get_payload()获得电子邮件正文

然而,当我用用解析电子邮件poplib(从上面的例子),那么每封电子邮件我message.get_payload()得到电子邮件正文中,我得到的字符串是不一样的HTML代码的电子邮件本身,即它有串像3D= \namp;等在我的解析电子邮件正文。

我想知道这是否是POP协议的问题,所以我需要使用其他协议,例如imaplib(但我不知道如何解析所有电子邮件poplib)。或者,我可以修改给定的示例以获得正确的电子邮件正文。

Tod*_*kov 6

message.get_payload(decode=True) 将是你最好的朋友:)

根据文档

可选解码是根据 Content-Transfer-Encoding 标头指示是否应解码有效载荷的标志。

HTH