将纯文本转换为 HTML、Match 或 Regexp 的最有效方法

Question

将纯文本转换为 HTML、Match 或 Regexp 的最有效方法

我有一个大型文本文档，其中填充了随机单词、网址、电子邮件地址等。示例：“word 2014 john@doe.com http://www.example.com/ http://example.com/image.gif ”，但它看起来可能会有所不同，可能会有换行符、多个空格、制表符等。并且数据可能很快就会变得巨大（这是一种书签服务，因此数据始终以图像、文本和超链接）。

文本文档中内容的另一个示例（我用于测试的）：

http://movpod.in/images3/MovPod-logo.png
https://dt8kf6553cww8.cloudfront.net/static/images/developers/chooser-drawing-vfln1ftk6.png
http://xregexp.com/assets/regex_cookbook.gif
asd asd ad feaf
apa
http

Run Code Online (Sandbox Code Playgroud)

我想将所有这些字符串包装在标签中，并且能够定位图像、超链接、电子邮件和字符串。我尝试了不同的方法，但不确定哪种方法最好，而且还有一个我不完全理解的正则表达式。

最终结果应该是：

<span>word</span>
<span>2014</span> 
<a class="mail" href="mailto:john@doe">john@doe.com</a> 
<a class="url" href="http://www.example.com/">http://www.google.com/</a> 
<a class="img" href="http://example.com/image.gif">http://example.com/image.gif</a>"

Run Code Online (Sandbox Code Playgroud)

匹配。然而，这种方法并不能保持文本顺序完整，但它确实有效。

arr = data.split("\n");
for (i = 0; i < arr.length; i++)
{
    arr2 = arr[i].split(' ');
    for (j = 0; j < arr2.length; j++)
    {
        if (arr2[j].match(/(.gif|.png|.jpg|.jpeg)/))
        {
            ext = arr2[j].substr(-4);
            ext = ext.replace(".","");
            imgs += '<a class="img '+ext+'" href="'+arr2[j]+'">'+arr2[j]+'</a>';
        }
        else if (arr2[j].match(/(http:)/))
        {
            urls += '<a class="url" href="'+arr2[j]+'">'+arr2[j]+'</a>';
        }
        else
        {
            spans += '<span>'+arr2[j]+'</span>';
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

正则表达式。我认为可以在 exp_all 中查找逆，就像在除包含 http 之外的其他任何内容中一样。然而事实并非如此。

var exp_img     = /(https?:\/\/([\S]+?)\.(jpg|jpeg|png|gif))/g,
    exp_link    = /([^"])(https?:\/\/([a-z-\.]+)+([a-z]{2,4})([\/\w-_]+)\/?)/g,
    exp_all     = /^((?!http).)*$/g;

    text        = data.replace(exp_all, '<span>$3</span>');
    text        = text.replace(exp_img, '<a class="img" href="$1">$1</a>');
    text        = text.replace(exp_link, '<a class="url" href="$2">$2</a>');

Run Code Online (Sandbox Code Playgroud)

因此，完成这种纯文本到 HTML 转换的最佳方法将受到赞赏。如果已经有某种类型的图书馆可以实现这一点，我会很高兴。我正在查看 Markdown，但我仍然需要更新 Markdown 的纯文本，所以我想这不是一个选择。

如果可能的话，我想去掉“http://”并使其尽可能干净整洁。

Answer 1

fin*_*fin -1

我对您的数据做了一些假设（例如，每个条目总是存在。）如果这是真的，那么类似这样的事情应该可以正常工作：

    <script>

    var data = ['word\n 2014\t\t    john@doe.com\n\n\n\n\n http://www.example.com/ http://example.com/image.gif apa http',
                'fooo 2013 foo@bar.com http://www.blah.com/ http://blah.com/gif.gif asd asd ad feaf'];

    function htmlify(string){
        var elem = string.replace(/[^\w\s\/@:\.]/g,'').replace(/\s+/g, ' ').split(' ');
        var result = [];
        for (var i = 0; i < elem.length; i++){
            if (elem[i].match(/http:/)) {
                if (elem[i].substr(-4).match(/.gif|.png|.jpg|.jpeg/)){
                    result.push("<a class='img' href='" + elem[i] + "'>" + elem[i] + "</a>");
                } else {
                    result.push( "<a class='url' href='" + elem[i] + "'>" + elem[i] + "</a>");
                }
            } else if (elem[i].match(/\w+@\w+\.\w+/)){
                    result.push("<a class='mail' href='mailto:" + elem[i] + "'>" + elem[i] + "</a>");
            } else {
                result.push("<span>" + elem[i] + "</span>");
            }
        }
        return result;
    }

    var result = data.map(htmlify);
    console.log(result);

    </script>

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，6 月前
查看次数：	607 次
最近记录：	2 年，5 月前