这可以改进吗？清理危险的 html 标签

Question

这可以改进吗？清理危险的 html 标签

我发现对于我认为非常重要的东西，关于如何处理这个问题的信息或库很少。

我在搜索时发现了这个。我真的不知道黑客可以尝试插入危险标签的所有方式。

我有一个丰富的 html 编辑器，所以我需要保留非危险标签但去掉坏标签。

那么这个脚本是否遗漏了什么？

它使用 html 敏捷包。

public string ScrubHTML(string html)
{
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(html);

    //Remove potentially harmful elements
    HtmlNodeCollection nc = doc.DocumentNode.SelectNodes("//script|//link|//iframe|//frameset|//frame|//applet|//object|//embed");
    if (nc != null)
    {
        foreach (HtmlNode node in nc)
        {
            node.ParentNode.RemoveChild(node, false);

        }
    }

    //remove hrefs to java/j/vbscript URLs
    nc = doc.DocumentNode.SelectNodes("//a[starts-with(translate(@href, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'abcdefghijklmnopqrstuvwxyz'), 'javascript')]|//a[starts-with(translate(@href, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'abcdefghijklmnopqrstuvwxyz'), 'jscript')]|//a[starts-with(translate(@href, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'abcdefghijklmnopqrstuvwxyz'), 'vbscript')]");
    if (nc != null)
    {

        foreach (HtmlNode node in nc)
        {
            node.SetAttributeValue("href", "#");
        }
    }


    //remove img with refs to java/j/vbscript URLs
    nc = doc.DocumentNode.SelectNodes("//img[starts-with(translate(@src, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'abcdefghijklmnopqrstuvwxyz'), 'javascript')]|//img[starts-with(translate(@src, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'abcdefghijklmnopqrstuvwxyz'), 'jscript')]|//img[starts-with(translate(@src, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'abcdefghijklmnopqrstuvwxyz'), 'vbscript')]");
    if (nc != null)
    {
        foreach (HtmlNode node in nc)
        {
            node.SetAttributeValue("src", "#");
        }
    }

    //remove on<Event> handlers from all tags
    nc = doc.DocumentNode.SelectNodes("//*[@onclick or @onmouseover or @onfocus or @onblur or @onmouseout or @ondoubleclick or @onload or @onunload]");
    if (nc != null)
    {
        foreach (HtmlNode node in nc)
        {
            node.Attributes.Remove("onFocus");
            node.Attributes.Remove("onBlur");
            node.Attributes.Remove("onClick");
            node.Attributes.Remove("onMouseOver");
            node.Attributes.Remove("onMouseOut");
            node.Attributes.Remove("onDoubleClick");
            node.Attributes.Remove("onLoad");
            node.Attributes.Remove("onUnload");
        }
    }

    // remove any style attributes that contain the word expression (IE evaluates this as script)
    nc = doc.DocumentNode.SelectNodes("//*[contains(translate(@style, 'ABCDEFGHIJKLMNOPQRSTUVWXYZ', 'abcdefghijklmnopqrstuvwxyz'), 'expression')]");
    if (nc != null)
    {
        foreach (HtmlNode node in nc)
        {
            node.Attributes.Remove("stYle");
        }
    }

    return doc.DocumentNode.WriteTo();
}

Run Code Online (Sandbox Code Playgroud)

编辑

2 人已建议列入白名单。我实际上喜欢白名单的想法，但从来没有真正做到过，因为没有人能真正告诉我如何在 C# 中做到这一点，我什至无法真正找到如何在 C# 中做到这一点的教程（我最后一次看。我会的再检查一下）。

怎么做白名单？它只是一个列表集合吗？
您如何实际解析所有 html 标签、脚本标签和其他所有标签？
一旦你有了标签，你如何确定哪些是允许的？将它们与您的列表集合进行比较？但是，如果内容进来并且有大约 100 个标签，而您允许 50 个标签，会发生什么。您必须将这 100 个标签中的每一个与 50 个允许的标签进行比较。这是相当多的经历，可能会很慢。
一旦发现无效标签，如何删除它？如果发现一个标签无效，我真的不想拒绝一整套文本。我宁愿删除并插入其余部分。
我应该使用 html 敏捷包吗？

Answer 1

zil*_*n01 5

该代码很危险——您应该将元素列入白名单，而不是将它们列入黑名单。

换句话说，制作一个您想要允许的标签和属性的小列表，不要让任何其他人通过。

编辑：我不熟悉 HTML 敏捷包，但我看不出它为什么不起作用的原因。由于我不了解该框架，因此我将为您提供所需要做的伪代码。

doc.LoadHtml(html);

var validTags = new List<string>(new string[] {"b", "i", "u", "strong", "em"});

var nodes = doc.DocumentNode.SelectAllNodes();
foreach(HtmlNode node in nodes)
    if(!validTags.Contains(node.Tag.ToLower()))
        node.Parent.ReplaceNode(node, node.InnerHtml);

Run Code Online (Sandbox Code Playgroud)

基本上，对于每个标签，如果它未包含在白名单中，则仅用其内部 HTML 替换该标签。同样，我不知道你的框架，所以我不能给你具体细节，抱歉。希望这能让你朝着正确的方向开始。

归档时间：	15 年，8 月前
查看次数：	2144 次
最近记录：	15 年，8 月前