构建匹配分层数据的单个正则表达式是否可行/实用?
例如:
<h1>Action</h1>
<h2>Title1</h2><div>data1</div>
<h2>Title2</h2><div>data2</div>
<h1>Adventure</h1>
<h2>Title3</h2><div>data3</div>
Run Code Online (Sandbox Code Playgroud)
我想最终得到比赛.
"Action", "Title1", "data1"
"Action", "Title2", "data2"
"Adventure", "Title3", "data3"
Run Code Online (Sandbox Code Playgroud)
我认为这需要知道这里有一个层次结构,如果我编码模式来捕获H1,它只匹配该层次结构的第一个条目.如果我不为H1编码那么我就无法捕获它.想知道我是否有任何特殊的技巧来解决这个问题.
这是一个.NET项目.