我可以使用XSLT解析HTML吗？

Question

我可以使用XSLT解析HTML吗？

我必须解析一个大的HTML文件,我只对一小部分(一个表)感兴趣.所以我考虑使用XSLT来简化/转换HTML,使其更容易处理.

我遇到的问题是找不到我的桌子.所以我不知道它是否可以使用XSL样式表解析HTML.

顺便说一句,HTML文件具有这种外观(原理图,缺少标签):

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html id="ctl00_htmlDocumento" xmlns="http://www.w3.org/1999/xhtml" lang="es-ES" xml:lang="es-ES">
<div> some content </div>
<div class="NON_IMPORTANT"></div>
<div class="IMPORTANT_FATHER>
    <div class="IMPORTANT">
        <table>
            HERE IS THE DATA IM LOOKING FOR
        </table>
    </div>
</div>

Run Code Online (Sandbox Code Playgroud)

根据要求,这是我的xsl

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
    <xsl:template match="tbody">
        tbody found, lets process it
    <xsl:for-each select="tr">
        new tf found, lets process it
    </xsl:for-each>
    </xsl:template>

</xsl:stylesheet>

Run Code Online (Sandbox Code Playgroud)

完整的HTML非常大,所以我不知道如何在这里展示它...我已经在Oxygen上测试了有效的文档,它说它有效.

提前致谢.Gonso

Answer 1

Chr*_*ter 5

只要您的 XHTML 文档格式正确，XML 解析器就能够读取它，因此 XSLT 引擎将能够对其进行转换。

假设，无法在文档中找到元素的最常见原因是：

您的 XPath 表达式是相对于您认为的不同节点执行的。这对您的 XSLT 意味着什么 - 检查您的 XSLT 匹配模式相对于它们的模板是否正确。
您尚未在 XPath 引擎中定义命名空间 URI 到前缀的映射。这对您的 XSLT 意味着什么 - 确保您xmlns="http://www.w3.org/1999/xhtml"在 XSLT 文件中声明了命名空间，带或不带前缀。

如果您发布您的 XSLT，我将能够进一步发表评论。

Answer 2

Jaa*_*koK 5

您没有在match属性中正确使用XPath .您需要元素中的xmlns:xhtml="http://www.w3.org/1999/xhtml"属性xsl:stylesheet,然后您需要xhtml:在XPath表达式中使用前缀(您需要一个前缀; XPath不遵循默认名称空间).

在此之后,你仍然会遇到它将处理其他一切的问题.我不知道是否有更好的解决方案,但我认为你需要在tbody元素的路径上显式处理事情,比如

<xsl:template match="xhtml:html">
  <xsl:apply-templates select="xhtml:body"/>
</xsl:template>

Run Code Online (Sandbox Code Playgroud)

和你一样的东西body,等等,直到你的tbody比赛.

XPath还支持比上面特定子项更复杂的匹配.例如,匹配第三个子div标签可以完成

<xsl:template match="xhtml:div[3]">

Run Code Online (Sandbox Code Playgroud)

并使用特定属性匹配元素

<xsl:template match="xhtml:div[@class='IMPORTANT']">

Run Code Online (Sandbox Code Playgroud)

这里[]围绕一个额外的条件,需要满足元素被认为是匹配.普通数字意味着索引匹配并仅获取具有该索引的索引(索引是基于1的),@符号在属性之前,但是您可以在那里使用任意复杂的XPath,因此您可以匹配任何您想要的子结构.

归档时间：	16 年前
查看次数：	11932 次
最近记录：	15 年，12 月前