Python/R:当并非所有节点都包含所有变量时,从XML生成数据帧?

ℕʘʘ*_*ḆḽḘ 8 python xml r pandas xml2

请考虑以下XML示例

library(xml2)

myxml <- read_xml('
<data>
  <obs ID="a">
  <name> John </name>
  <hobby> tennis </hobby>
  <hobby> golf </hobby>
  <skill> python  </skill>
  </obs>
  <obs ID="b">
  <name> Robert </name>
  <skill> R </skill>
  </obs>
  </data>
')
Run Code Online (Sandbox Code Playgroud)

在这里,我想从这个XML中获取一个(R或Pandas)数据框,其中包含列namehobby.

但是,如您所见,存在对齐问题,因为hobby第二个节点中缺少对齐问题,John有两个爱好.

在R中,我知道如何一次提取一个特定值,例如使用xml2如下:

myxml%>% 
  xml_find_all("//name") %>% 
  xml_text()

myxml%>% 
  xml_find_all("//hobby") %>% 
  xml_text()
Run Code Online (Sandbox Code Playgroud)

但是如何在数据框中正确对齐此数据?也就是说,我如何获得如下的数据帧(注意我如何加入|John的两个爱好):

# A tibble: 2 × 3
    name           hobby            skill
   <chr>           <chr>            <chr>
1   John          tennis|golf       python
2 Robert            <NA>            R
Run Code Online (Sandbox Code Playgroud)

在R中,我更喜欢使用xml2和的解决方案dplyr.在Python中,我想最终得到一个Pandas数据帧.另外,在我的xml中还有更多我要解析的变量.我想要一个解决方案,允许用户解析其他变量而不会过多地使用代码.

谢谢!

编辑:感谢大家对这些出色的解决方案.所有这些都非常好,有很多细节,很难找到最好的.再次感谢!

piR*_*red 1

pandas

import pandas as pd
from collections import defaultdict
import xml.etree.ElementTree as ET


xml_txt = """<data>
  <obs ID="a">
  <name> John </name>
  <hobby> tennis </hobby>
  <hobby> golf </hobby>
  <skill> python  </skill>
  </obs>
  <obs ID="b">
  <name> Robert </name>
  <skill> R </skill>
  </obs>
  </data>"""

etree = ET.fromstring(xml_txt)

def obs2series(o):
    d = defaultdict(list)
    [d[c.tag].append(c.text.strip()) for c in o.getchildren()];
    return pd.Series(d).str.join('|')

pd.DataFrame([obs2series(o) for o in etree.findall('obs')])

         hobby    name   skill
0  tennis|golf    John  python
1          NaN  Robert       R
Run Code Online (Sandbox Code Playgroud)

怎么运行的

  • 从字符串构建元素树。否则做类似的事情et = ET.parse('my_data.xml')
  • etree.findall('obs')xml返回结构中作为'obs'标签的元素列表
  • 我将它们中的每一个传递给pd.Series构造函数obs2series
  • obs2seriesI 中循环遍历一个'obs'元素中的所有子节点。
  • defaultdict默认的list含义是我可以附加到一个值,即使之前没有见过该键。
  • 我最终得到了一本列表字典。我将其传递给以pd.Series获得一系列列表。
  • 使用pd.Series.str.join('|')我将其转换为我想要的一系列字符串。
  • 我一开始循环观察的列表理解现在是一个系列列表,并准备传递给pd.DataFrame构造函数。