用于测试目的的大样本mbox文件

pin*_*int 5 testing file mbox

为了开发邮件客户端,我需要一个包含尽可能多邮件的非常大的mbox测试文件.优选> 100,000个邮件(> 10GB).

它应该是真实的邮件数据,因为我不仅要测试性能,还要测试邮件过滤器和搜索.

提前感谢任何提示,以获得这样的东西.

phi*_*hem 5

您可以使用搜索引擎收集.mbox文本文件。例如,谷歌搜索filetype:mbox pipermail大量.mbox数据中的结果,而不是pipermail from用作搜索字符串。

单个.mbox文件可以串联:

cat mboxfile1 > mboxfile
echo >> mboxfile
cat mboxfile2 >> mboxfile
Run Code Online (Sandbox Code Playgroud)

ps不是不道德的数据,而是您要使用的数据。请遵守道德规范!


phi*_*hem 5

另一个选项:

安然电子邮件语料库,有 210 GB 的电子邮件。它有多种电子邮件格式,但应该易于阅读。

作为 FERC 西部能源市场调查的一部分公开发布的安然电子邮件数据由 EDRM 转换为行业标准格式。该数据集由 1,227,255 封电子邮件和 493,384 个附件组成,涵盖 151 个保管人。该电子邮件以 Microsoft PST、IETF MIME 和 EDRM XML 格式提供。

Apache 软件基金会公共邮件档案(200 GB)

截至 2011 年 7 月 11 日所有公开可用的 Apache 软件基金会邮件档案的集合

此集合包含来自 ASF 80 多个项目的所有公开电子邮件档案

亚马逊链接


And*_*rew 0

也许您可以使用自己的邮箱并多次复制它。例如,您设置一个邮件帐户并使用 IMAP 或使用文件系统多次复制所有电子邮件,但这取决于您使用的数据格式。