我需要匹配所有这些开始标记:
<p>
<a href="foo">
Run Code Online (Sandbox Code Playgroud)
但不是这些:
<br />
<hr class="foo" />
Run Code Online (Sandbox Code Playgroud)
我想出了这个,并希望确保我做对了.我只抓住了a-z.
<([a-z]+) *[^/]*?>
Run Code Online (Sandbox Code Playgroud)
我相信它说:
/,然后我有这个权利吗?更重要的是,你怎么看?
有没有简单的方法来删除所有HTML标签或从字符串相关的任何HTML?
例如:
string title = "<b> Hulk Hogan's Celebrity Championship Wrestling <font color=\"#228b22\">[Proj # 206010]</font></b> (Reality Series, )"
Run Code Online (Sandbox Code Playgroud)
以上应该是:
"绿巨人霍根的名人冠军摔跤[Proj#206010](现实系列)"
我不是在谈论类似XHTML的代码.我正在谈论像这个疯狂的标记,这是完全有效的HTML(!)
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN">
<html<head>
<title//
<p ltr<span id=p></span</p>
</>
Run Code Online (Sandbox Code Playgroud)
因此,鉴于SGML注入的巨大复杂性,HTML是一种无上下文的语言吗?这是一种正式的语言吗?用语法?
HTML5怎么样?
我是正式语言概念的新手,所以请耐心等待.是的,我已阅读维基百科的文章;)
在我的数据集中,我有一个字段,用于存储用HTML标记的文本.一般格式如下:
<html><head></head><body><p>My text.</p></body></html>
我可以尝试通过执行以下操作来解决问题:
REPLACE(REPLACE(Table.HtmlData, '<html><head></head><body><p>', ''), '</p></body></html>')
Run Code Online (Sandbox Code Playgroud)
但是,这不是一个严格的规则,因为某些条目违反W3C标准并且不包括<head>标签.更糟糕的是,可能会缺少结束标签.所以我需要REPLACE为每个可能存在的开始和结束标记包含该函数.
REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(
Table.HtmlData,
'<html>', ''),
'</html>', ''),
'<head>', ''),
'</head>', ''),
'<body>', ''),
'</body>', ''),
'<p>', ''),
'</p>', '')
Run Code Online (Sandbox Code Playgroud)
我想知道是否有比使用多个嵌套REPLACE函数更好的方法来实现这一点.不幸的是,我在这种环境中可用的唯一语言是SQL和Visual Basic(不是.NET).
我有一个像这样的html表达式:
"This is <h4>Some</h4> Text" + Environment.NewLine +
"This is some more <h5>text</h5>
Run Code Online (Sandbox Code Playgroud)
我只想提取文本.所以结果应该是
"This is Some Text" + Environment.NewLine +
"This is some more text"
Run Code Online (Sandbox Code Playgroud)
我该怎么做呢?
我的HomeController类中有以下函数:
public class HomeController : Controller
{
public string Strip(string text)
{
return Regex.Replace(text,@"<(.|\n)*?>",string.Empty);
}
Run Code Online (Sandbox Code Playgroud)
在我看来,我有以下内容来显示数据库中的文章:
<%= item.story %>
Run Code Online (Sandbox Code Playgroud)
典型文章如下所示:
<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea <em>commodo consequat</em>.</p> <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.</p>
Run Code Online (Sandbox Code Playgroud)
如您所见,文本中包含HTML标记.我想要做的是使用带有item.story的Strip函数来删除那些HTML标记.之后,我想将剩余的文本截断为20个单词.
所以我最终会得到以下内容:
Lorem …