使用 sparkxml 从 xml 中提取标签属性

Question

使用 sparkxml 从 xml 中提取标签属性

pra*_*ads 1 xml xml-parsing apache-spark apache-spark-sql spark-dataframe

我正在使用 com.databricks.spark.xml 加载一个 xml 文件，我想使用 sql 上下文读取标签属性。

XML :

<Receipt>
<Sale>
<DepartmentID>PR</DepartmentID>
<Tax TaxExempt="false" TaxRate="10.25"/>
</Sale>
</Receipt>

Run Code Online (Sandbox Code Playgroud)

加载文件，

val df = sqlContext.read.format("com.databricks.spark.xml").option("rowTag","Receipt").load("/home/user/sale.xml");
df.registerTempTable("SPtable");

Run Code Online (Sandbox Code Playgroud)

打印架构：

root
 |-- Sale: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- DepartmentID: long (nullable = true)
 |    |    |-- Tax: string (nullable = true)

Run Code Online (Sandbox Code Playgroud)

现在我想从 Tax.I 中提取标签属性 TaxExempt。我尝试了以下代码，但它给了我错误。

val tax =sqlContext.sql("select Sale.Tax.TaxExempt from SPtable");

Run Code Online (Sandbox Code Playgroud)

错误：

org.apache.spark.sql.AnalysisException: cannot resolve 'Sale.Tax[TaxExempt]' due to data type mismatch: argument 2 requires integral type, however, 'TaxExempt' is of string type.; line 1 pos 7

Run Code Online (Sandbox Code Playgroud)

任何帮助都受到高度赞赏。

Answer 1

小智 5

数据框的第一个打印模式，在我的情况下，它使用 spark xml 版本 0.3.3 打印如下

|-- Sale: struct (nullable = true)
|    |-- DepartmentID: string (nullable = true)
|    |-- Tax: struct (nullable = true)
|    |    |-- #VALUE: string (nullable = true)
|    |    |-- @TaxExempt: boolean (nullable = true)
|    |    |-- @TaxRate: double (nullable = true)

Run Code Online (Sandbox Code Playgroud)

然后使用下面的查询来选择 xml 属性，注册 temptable 后

sqlContext.sql("select Sale.Tax['@TaxRate'] as TaxRate from temptable").show();

下面是结果

| 税率|

+-----+

|10.25|

从 0.4.1 开始，我认为属性默认以下划线（_）开头，在这种情况下，查询属性时只需使用 _ 而不是@。

归档时间：	9 年，3 月前
查看次数：	2702 次
最近记录：	9 年，3 月前