为了开发邮件客户端,我需要一个包含尽可能多邮件的非常大的mbox测试文件.优选> 100,000个邮件(> 10GB).
它应该是真实的邮件数据,因为我不仅要测试性能,还要测试邮件过滤器和搜索.
提前感谢任何提示,以获得这样的东西.
您可以使用搜索引擎收集.mbox文本文件。例如,谷歌搜索filetype:mbox pipermail大量.mbox数据中的结果,而不是pipermail from用作搜索字符串。
单个.mbox文件可以串联:
cat mboxfile1 > mboxfile
echo >> mboxfile
cat mboxfile2 >> mboxfile
Run Code Online (Sandbox Code Playgroud)
ps不是不道德的数据,而是您要使用的数据。请遵守道德规范!
另一个选项:
安然电子邮件语料库,有 210 GB 的电子邮件。它有多种电子邮件格式,但应该易于阅读。
作为 FERC 西部能源市场调查的一部分公开发布的安然电子邮件数据由 EDRM 转换为行业标准格式。该数据集由 1,227,255 封电子邮件和 493,384 个附件组成,涵盖 151 个保管人。该电子邮件以 Microsoft PST、IETF MIME 和 EDRM XML 格式提供。
Apache 软件基金会公共邮件档案(200 GB)
截至 2011 年 7 月 11 日所有公开可用的 Apache 软件基金会邮件档案的集合
此集合包含来自 ASF 80 多个项目的所有公开电子邮件档案