正则表达式检测XML节点内的换行符

Question

正则表达式检测XML节点内的换行符

我正在使用regexp遇到麻烦.我正在查看一组XML文件,并尝试检测包含换行符的特定节点内的一些文本.

以下是一些示例数据:

<item name='GenMsgText'><text>The signature will be discarded.</text></item>

<item name='GenMsgText'><text>The signature will be discarded.<break/>
Do you want to continue?</text></item>

Run Code Online (Sandbox Code Playgroud)

在该示例中,我想仅捕获第二个节点中的文本.我想出了下面使用第二个正则表达式的解决方案,但我想知道我是否可以只用一个做同样的事情.

if ($content =~m{<item name='GenMsgText'>(<textlist>)?<text>(.*?)</text>}si)
  {
    $t = $2;
    if ($t =~m {\n}i)
    {
     print G $t."\n\n";
    }
}

Run Code Online (Sandbox Code Playgroud)

这是一个不能重复使用的一次性工具,所以我想避免编写任何超过几行的解析代码.此外,上面的代码已经有效,我问的是个人知识的问题而不是实际使用.

Answer 1

Tom*_*lak 5

正则表达式不是这项任务的正确工具,它根本无法很好地处理嵌套结构.如果你有一个DOM API,这个XPath会找到正确的节点:

如果您正在寻找<break/>元素,正如您的示例所示:

//item[@name='GenMsgText']/text[break]

Run Code Online (Sandbox Code Playgroud)

对于"实际"换行符,为CR(0xD)或LF(0xA):

//item[@name='GenMsgText']/text[contains(., '&#xD;') or contains(., '&#xA;')]

Run Code Online (Sandbox Code Playgroud)

归档时间：	17 年，2 月前
查看次数：	2103 次
最近记录：	17 年，2 月前