虽然没有标准化的方法,但合理的启发式方法可以让您保持良好的距离。
一些算法根据行的初始字符对行进行分类,并通过将文本与标记文本的语料库进行比较,生成每行的统计概率:a) 与下一个/上一个块属于同一块,b) ) 引用的文本、签名、新文本等。
尝试一些最流行的电子邮件客户端并创建和比较一些示例消息以了解其中的差异是值得的。Usenet 新闻组还可以帮助您构建合理的消息语料库以供使用。当然,HTML 电子邮件会增加额外的复杂性,尽管大多数兼容的邮件客户端也会包含相应的纯文本。不同的语言也会引起问题,因为可以解析“Paul write:”的客户端可能会在“Pablo ha scritto:”处失败。
归档时间: |
|
查看次数: |
3295 次 |
最近记录: |