XPath - 选择两个节点之间的第一组兄弟节点

Lei*_*zar 2 c# xml xpath siblings

我在使用XPath查询C#中的一些HTML文件时遇到了一个小问题.

好的,首先是HTML示例:

<table id="theTable">
    <tbody>
        <tr class="theClass">A</tr>
        <tr class="theClass">B</tr>
        <tr>1</tr>
        <tr>2</tr>
        <tr>3</tr>
        <tr>4</tr>
        <tr>5</tr>
        <tr class="theClass">C</tr>
        <tr class="theClass">D</tr>
        <tr>6</tr>
        <tr>7</tr>
        <tr>8</tr>
        <tr>9</tr>
        <tr>10</tr>
        <tr>11</tr>
        <tr>12</tr>
        <tr>13</tr>
        <tr>14</tr>
        <tr>15</tr>
        <tr class="theClass">E</tr>
        <tr class="theClass">F</tr>
        <tr>16</tr>
        <tr>17</tr>
        <tr>18</tr>
        <tr>19</tr>
        <tr>20</tr>
        <tr>21</tr>
        <tr>22</tr>
    </tbody>
</table>
Run Code Online (Sandbox Code Playgroud)

现在,我要做的是只获取B和C节点之间的元素(1,2,3,4,5).

这是我到目前为止所尝试的:

using System;
using System.Xml.XPath;

namespace Test
{
    class Test
    {
        static void Main(string[] args)
        {
            XPathDocument doc = new XPathDocument("Test.xml");
            XPathNavigator nav = doc.CreateNavigator();

            Console.WriteLine(nav.Select("//table[@id='theTable']/tbody/tr[preceding-sibling::tr[@class='theClass'] and following-sibling::tr[@class='theClass']]").Count);
            Console.WriteLine(nav.Select("//table[@id='theTable']/tbody/tr[preceding-sibling::tr[@class='theClass'][2] and following-sibling::tr[@class='theClass'][4]]").Count);

            Console.ReadKey(true);
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

这段代码运行在上面的HTML上,输出19和5.所以只有第二个XPath表达式可以工作,但这只是因为它搜索的元素class=theClass在它们之前有两个元素,在它们之后有4个元素.

我的问题现在开始了.我想编写一个表达式,它只返回<td class="theClass"></td>标记之后的第一组元素,无论它跟随多少组.

如果我在这个HTML上运行我的代码

<table id="theTable">
    <tbody>
        <tr class="theClass">A</tr>
        <tr class="theClass">B</tr>
        <tr>1</tr>
        <tr>2</tr>
        <tr>3</tr>
        <tr>4</tr>
        <tr>5</tr>
        <tr>6</tr>
    </tbody>
</table>
Run Code Online (Sandbox Code Playgroud)

它将输出0和0.

所以这不好.

有人有什么想法吗?

谢谢!

Dim*_*hev 6

现在,我想要做的是让只有那些之间的那些元素BC节点

使用此单个XPath表达式:

   /*/*/tr[.='B']
           /following-sibling::*
             [count(.|/*/*/tr[. ='C']/preceding-sibling::*)
             =
              count(/*/*/tr[. ='C']/preceding-sibling::*)
             ]
Run Code Online (Sandbox Code Playgroud)

这是一个基于XSLT的验证:

<xsl:stylesheet version="1.0"
 xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 <xsl:output omit-xml-declaration="yes" indent="yes"/>

 <xsl:template match="/">
  <xsl:copy-of select=
  "/*/*/tr[.='B']
           /following-sibling::*
             [count(.|/*/*/tr[. ='C']/preceding-sibling::*)
             =
              count(/*/*/tr[. ='C']/preceding-sibling::*)
             ]
  "/>
 </xsl:template>
</xsl:stylesheet>
Run Code Online (Sandbox Code Playgroud)

当此转换应用于第一个提供的XML文档时:

<table id="theTable">
    <tbody>
        <tr class="theClass">A</tr>
        <tr class="theClass">B</tr>
        <tr>1</tr>
        <tr>2</tr>
        <tr>3</tr>
        <tr>4</tr>
        <tr>5</tr>
        <tr class="theClass">C</tr>
        <tr class="theClass">D</tr>
        <tr>6</tr>
        <tr>7</tr>
        <tr>8</tr>
        <tr>9</tr>
        <tr>10</tr>
        <tr>11</tr>
        <tr>12</tr>
        <tr>13</tr>
        <tr>14</tr>
        <tr>15</tr>
        <tr class="theClass">E</tr>
        <tr class="theClass">F</tr>
        <tr>16</tr>
        <tr>17</tr>
        <tr>18</tr>
        <tr>19</tr>
        <tr>20</tr>
        <tr>21</tr>
        <tr>22</tr>
    </tbody>
</table>
Run Code Online (Sandbox Code Playgroud)

评估XPath表达式并将选定的节点复制到输出:

<tr>1</tr>
<tr>2</tr>
<tr>3</tr>
<tr>4</tr>
<tr>5</tr>
Run Code Online (Sandbox Code Playgroud)

说明:

在这里,我们只使用Kayessian公式进行节点集交集:

$ns1[count(.|$ns2) = count($ns2)]
Run Code Online (Sandbox Code Playgroud)

我们$ns1用以下代替:

 /*/*/tr[.='B']
               /following-sibling::*
Run Code Online (Sandbox Code Playgroud)

我们$ns2用以下代替:

/*/*/tr[. ='C']/preceding-sibling::*
Run Code Online (Sandbox Code Playgroud)

第二个问题:

我的问题现在开始了.我想编写一个表达式,它只返回<td class="theClass"></td>标记之后的第一组元素,无论它跟随多少组.

同样存在选择这些元素的单个XPath表达式:

   /*/*/tr[@class='theClass'
         and
           following-sibling::*[1][self::tr[not(@*)] ]
           ][1]
             /following-sibling::tr
               [not(@*)
              and
                count(preceding-sibling::tr
                       [@class='theClass'
                      and
                        following-sibling::*[1][self::tr[not(@*)] ]
                       ]
                     )
                = 1
               ]
Run Code Online (Sandbox Code Playgroud)

说明:

这将选择tr第一个*/*/tr元素的所有后续兄弟元素(满足许多条件),该元素的class属性具有字符串值,"theClass"并且其第一个后续元素兄弟是tr没有属性的元素.

这些选定tr元素也满足的条件是两个:1)它们没有任何属性; 2)它们只有一个前面的兄弟tr元素,其class属性具有字符串值"theClass".

这是基于XSLT的验证:

<xsl:stylesheet version="1.0"
 xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 <xsl:output omit-xml-declaration="yes" indent="yes"/>

 <xsl:template match="/">
  <xsl:copy-of select=
  "/*/*/tr[@class='theClass'
         and
           following-sibling::*[1][self::tr[not(@*)] ]
           ][1]
             /following-sibling::tr
               [not(@*)
              and
                count(preceding-sibling::tr
                       [@class='theClass'
                      and
                        following-sibling::*[1][self::tr[not(@*)] ]
                       ]
                     )
                = 1
               ]
  "/>
 </xsl:template>
</xsl:stylesheet>
Run Code Online (Sandbox Code Playgroud)

当应用于第二个提供的XML文档时:

<table id="theTable">
    <tbody>
        <tr class="theClass">A</tr>
        <tr class="theClass">B</tr>
        <tr>1</tr>
        <tr>2</tr>
        <tr>3</tr>
        <tr>4</tr>
        <tr>5</tr>
        <tr>6</tr>
    </tbody>
</table>
Run Code Online (Sandbox Code Playgroud)

再次输出想要和正确选择的元素:

<tr>1</tr>
<tr>2</tr>
<tr>3</tr>
<tr>4</tr>
<tr>5</tr>
<tr>6</tr>
Run Code Online (Sandbox Code Playgroud)