使用lxml有效解析元标记？

Question

我用lxml解析HTML页面.这些页面的元标记如下:

<meta property="og:locality" content="Detroit" />
<meta property="og:country-name" content="USA" />

如何有效地使用lxml og:locality在每个页面上查找元标记的值？

我目前有以下内容,只需按属性手动匹配元标记:

for meta in doc3.cssselect('meta'):
    prop = meta.get('property')
    if prop === 'og:locality':
        lat = meta.get('content')

但它感觉效率不高.

Answer 1

您可以使用此XPath选择器: //meta[@property='og:locality']/@content

你错过了`@content` 没有？`tree = fromstring(html_data) tree.xpath("//meta[@property='og:locality']/@content")` (2认同)

Answer 2

我认为lxml支持大多数CSS选择器，因此您可以使用属性选择器：

doc3.cssselect('meta[property="og:locality"]')[0].get('content')