如何在c#中使用正则表达式删除<和>之间的字符？

Question

我有一个字符串str="<u>rag</u>".现在,我只想获得字符串"rag".如何使用正则表达式获取它？

我的代码在这里..

我得到了输出=""

提前致谢..

C#代码:

string input="<u>ragu</u>";
string regex = "(\\<.*\\>)";
string output = Regex.Replace(input, regex, "");

Answer 1

const string HTML_TAG_PATTERN = "<.*?>";
Regex.Replace (str, HTML_TAG_PATTERN, string.Empty);

Answer 2

regex不推荐用于解析html

regex用于经常出现的模式。html它的格式不规则（除了xhtml）。例如，html即使您没有，文件也是有效的！这closing tag可能会破坏您的代码。

使用 html 解析器，例如htmlagilitypack

警告{不要在您的代码中尝试此操作}

解决您的正则表达式问题！

<.*>替换<后跟 0 到多个字符（即u>rag</u）直到最后>

你应该用这个正则表达式替换它

<.*?>

.*是贪婪的，即它会吃掉与匹配的字符一样多的字符

.*?是懒惰的，即它会吃尽可能少的字符