f#按标签分割html

Question

我想解析一个HTML文档,并将每个段落作为单独的条目打印到日志文件中.到目前为止,我有:

let parseTextFile (path) =
        let fileText = File.ReadAllText(path)
        fileText.Split('<p>') |> Seq.iter (fun m -> logEmail(m))

但不幸的是对我来说string.Split没有做我想要的东西,似乎存在用单个字符分隔符分割字符串.如何使用多于一个字符的东西来分割文件,除了<p>之外还有更多的东西可能会很好,因为我只会在段落末尾有一个</ p>.使用正则表达式或某种复杂的匹配器,我可以更具体地选择<p>标签之间的所有内容.

Answer 1

尝试使用特定的库来解析html,例如HtmlAgilityPack.