相关疑难解决方法(0)

除了XHTML自包含标记之外,RegEx匹配开放标记

我需要匹配所有这些开始标记:

<p>
<a href="foo">
Run Code Online (Sandbox Code Playgroud)

但不是这些:

<br />
<hr class="foo" />
Run Code Online (Sandbox Code Playgroud)

我想出了这个,并希望确保我做对了.我只抓住了a-z.

<([a-z]+) *[^/]*?>
Run Code Online (Sandbox Code Playgroud)

我相信它说:

  • 找一个小于,然后
  • 然后,查找(并捕获)az一次或多次
  • 然后找到零个或多个空格
  • 找到任何字符零次或多次,贪婪/,然后
  • 找到一个大于

我有这个权利吗?更重要的是,你怎么看?

html regex xhtml

1323
推荐指数
36
解决办法
270万
查看次数

如何从字符串中删除所有HTML标记而不知道其中包含哪些标记?

有没有简单的方法来删除所有HTML标签或从字符串相关的任何HTML?

例如:

string title = "<b> Hulk Hogan's Celebrity Championship Wrestling &nbsp;&nbsp;&nbsp;<font color=\"#228b22\">[Proj # 206010]</font></b>&nbsp;&nbsp;&nbsp; (Reality Series, &nbsp;)"
Run Code Online (Sandbox Code Playgroud)

以上应该是:

"绿巨人霍根的名人冠军摔跤[Proj#206010](现实系列)"

html c#

110
推荐指数
3
解决办法
17万
查看次数

HTML是无上下文的语言吗?

阅读一些 相关 问题让我思考HTML的理论本质.

我不是在谈论类似XHTML的代码.我正在谈论像这个疯狂的标记,这是完全有效的HTML(!)

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN">
<html<head>
<title//
<p ltr<span id=p></span</p>
</>
Run Code Online (Sandbox Code Playgroud)

因此,鉴于SGML注入的巨大复杂性,HTML是一种无上下文的语言吗?这是一种正式的语言吗?用语法?

HTML5怎么样?

我是正式语言概念的新手,所以请耐心等待.是的,我已阅读维基百科的文章;)

html sgml grammar language-theory

46
推荐指数
4
解决办法
1万
查看次数

如何在C#中删除html标签

可能重复:
如何使用C#清理HTML标记

在C#中删除HTML标记的最佳方法是什么?

.net html c#

15
推荐指数
3
解决办法
3万
查看次数

SQL - 删除字符串中的所有HTML标记

在我的数据集中,我有一个字段,用于存储用HTML标记的文本.一般格式如下:

<html><head></head><body><p>My text.</p></body></html>

我可以尝试通过执行以下操作来解决问题:

REPLACE(REPLACE(Table.HtmlData, '<html><head></head><body><p>', ''), '</p></body></html>')
Run Code Online (Sandbox Code Playgroud)

但是,这不是一个严格的规则,因为某些条目违反W3C标准并且不包括<head>标签.更糟糕的是,可能会缺少结束标签.所以我需要REPLACE为每个可能存在的开始和结束标记包含该函数.

REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(
    Table.HtmlData,
    '<html>', ''),
    '</html>', ''),
    '<head>', ''),
    '</head>', ''),
    '<body>', ''),
    '</body>', ''),
    '<p>', ''),
    '</p>', '')
Run Code Online (Sandbox Code Playgroud)

我想知道是否有比使用多个嵌套REPLACE函数更好的方法来实现这一点.不幸的是,我在这种环境中可用的唯一语言是SQL和Visual Basic(不是.NET).

html xml sql t-sql sql-server

12
推荐指数
3
解决办法
3万
查看次数

如何在c#中解析html中的文本

我有一个像这样的html表达式:

 "This is <h4>Some</h4> Text" + Environment.NewLine +
 "This is some more <h5>text</h5>
Run Code Online (Sandbox Code Playgroud)

我只想提取文本.所以结果应该是

"This is Some Text" + Environment.NewLine +
 "This is some more text"
Run Code Online (Sandbox Code Playgroud)

我该怎么做呢?

html c# xml parsing

3
推荐指数
1
解决办法
3481
查看次数

ASP.NET MVC C#如何使用此功能

我的HomeController类中有以下函数:

public class HomeController : Controller
    {

        public string Strip(string text)
        {
            return Regex.Replace(text,@"<(.|\n)*?>",string.Empty);
        }
Run Code Online (Sandbox Code Playgroud)

在我看来,我有以下内容来显示数据库中的文章:

<%= item.story %>
Run Code Online (Sandbox Code Playgroud)

典型文章如下所示:

<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea <em>commodo consequat</em>.</p> <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.</p>
Run Code Online (Sandbox Code Playgroud)

如您所见,文本中包含HTML标记.我想要做的是使用带有item.story的Strip函数来删除那些HTML标记.之后,我想将剩余的文本截断为20个单词.

所以我最终会得到以下内容:

Lorem …

c# asp.net-mvc

0
推荐指数
1
解决办法
962
查看次数

标签 统计

html ×6

c# ×4

xml ×2

.net ×1

asp.net-mvc ×1

grammar ×1

language-theory ×1

parsing ×1

regex ×1

sgml ×1

sql ×1

sql-server ×1

t-sql ×1

xhtml ×1