XMLParser正在吃我的空白

Cli*_*iff 5 java xml groovy xml-parsing

我正在从我正在解析的wiki页面中丢失重要的空白,我认为这是因为解析器.我在我的Groovy脚本中有这个:

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
def slurper = new XmlSlurper(new org.ccil.cowan.tagsoup.Parser())
slurper.keepWhitespace = true
inputStream.withStream{ doc = slurper.parse(it) 
println "originalContent = " + doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'}.@value
}
Run Code Online (Sandbox Code Playgroud)

其中inputStream是从URL GET请求初始化的,用于编辑confluence wiki页面.稍后在withInputStream块中我这样做:

println "originalContent = " + doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'}.@value
Run Code Online (Sandbox Code Playgroud)

我注意到页面的所有原始内容都被删除了它的换行符.我原本以为这是服务器端的事情,但是当我在浏览器中查看相同的req并查看源代码时,我可以在"originalContent"隐藏参数中看到换行符.有没有一种简单的方法来禁用空白规范化并保留字段的内容?以上是针对内部Confluence维基页面运行的,但在编辑任意维基页面时很可能会受到批评.

上面更新 我添加了一个"slurped.keepWhitespace = true"的调用,试图保留空格,但仍然无法正常工作.我认为这个方法是针对元素而不是属性的?有没有办法轻松调整底层Java XMLParser上的标志?是否有为属性值中的空格设置的特定设置?

sta*_*gic 1

我首先尝试用自己的一些 Confluence 页面重现此内容,但输入节点中没有 value 属性,也没有文本内容,所以我创建了自己的测试 html。

现在,我认为 tagoup 解析器也需要配置为保留空格,仅在 slurper 上设置它不会有帮助,因为默认设置是忽略空格。

所以我就这样做了,顺便说一句,tagoup 功能可忽略空白已记录在案。(搜索页面上的空白)

无论如何,这是行不通的。正如您从示例中看到的那样,属性中的空格被保留,尽管设置了额外的功能,但保留文本空格似乎不起作用。也许这是 tagoup 或 xml slurper 中的错误?

我建议你也仔细看看你的html,是否真的存在 value 属性?

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )

String html = """\
<html><head><title>test</title></head><body>
<p>
    <form id="editpageform">
        <p>
            <input name="originalContent" value="         ">         

            </input>
        </p>
    </form>
</p>
</body></html>
"""
def inputStream = new ByteArrayInputStream(html.getBytes())

def parser = new org.ccil.cowan.tagsoup.Parser()
parser.setFeature("http://www.ccil.org/~cowan/tagsoup/features/ignorable-whitespace", true)

def slurper = new XmlSlurper(parser)
slurper.keepWhitespace = true

inputStream.withStream{ doc = slurper.parse(it) 
    def parse = { doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'} }
    println "originalContent (name)  = '${parse().@name}'"
    println "originalContent (value) = '${parse().@value}'"
    println "originalContent (text)  = '${parse().text()}'"
}
Run Code Online (Sandbox Code Playgroud)