要获取element.tagName的问题.使用Python和xml.dom.minidom解析XML

Man*_*anu 5 python xml parsing tagname

我正在使用Python(xml.dom.minidom)解析XML,但我无法得到节点的tagName.

口译员正在返回:

AttributeError: Text instance has no attribute 'tagName' 
Run Code Online (Sandbox Code Playgroud)

当我尝试从节点中提取(例如)字符串'format'时:

<format>DVD</format>
Run Code Online (Sandbox Code Playgroud)

我在Starckoverflow中找到了几个非常相似的帖子,但我仍然找不到解决方案.

我知道可能有其他模块来处理这个问题,但我的目的是了解为什么它失败了.

非常感谢提前和最好的问候,

这是我的代码:

from xml.dom.minidom import parse
import xml.dom.minidom

# Open XML document
xml = xml.dom.minidom.parse("movies.xml")

# collection Node
collection_node = xml.firstChild

# movie Nodes
movie_nodes = collection_node.childNodes

for m in movie_nodes:

    if len(m.childNodes) > 0:
        print '\nMovie:', m.getAttribute('title')

        for tag in m.childNodes:
            print tag.tagName  # AttributeError: Text instance has no attribute 'tagName'
            for text in tag.childNodes:
                print text.data
Run Code Online (Sandbox Code Playgroud)

在这里XML:

<collection shelf="New Arrivals">
<movie title="Enemy Behind">
   <type>War, Thriller</type>
   <format>DVD</format>
   <year>2003</year>
   <rating>PG</rating>
   <stars>10</stars>
   <description>Talk about a US-Japan war</description>
</movie>
<movie title="Transformers">
   <type>Anime, Science Fiction</type>
   <format>DVD</format>
   <year>1989</year>
   <rating>R</rating>
   <stars>8</stars>
   <description>A schientific fiction</description>
</movie>
</collection>
Run Code Online (Sandbox Code Playgroud)

类似帖子:

使用minidom获取节点名称

python的Element.tagName不起作用

har*_*r07 6

错误是由于元素节点之间的新行被认为是TEXT_NODE类型的不同节点(参见Node.nodeType),而TEXT_NODE没有tagName属性.

您可以添加节点类型检查以避免tagName从文本节点打印:

if tag.nodeType != tag.TEXT_NODE:
    print tag.tagName 
Run Code Online (Sandbox Code Playgroud)