在java中将XML文件转换为CSV

ant*_*ant 11 java xml stax

@Before可能会有一些重复的问题建议,我不认为是这样的情况可能先读一下,我会尽量做到尽可能简短.标题给出了基本概念.

这是一个示例XML(案例1):

<root>
      <Item>
        <ItemID>4504216603</ItemID>
        <ListingDetails>
          <StartTime>10:00:10.000Z</StartTime>
          <EndTime>10:00:30.000Z</EndTime>
          <ViewItemURL>http://url</ViewItemURL>
            ....
           </item>      
Run Code Online (Sandbox Code Playgroud)

这是一个示例XML(案例2):

          <Item>
            <ItemID>4504216604</ItemID>
            <ListingDetails>
              <StartTime>10:30:10.000Z</StartTime>
              <!-- Start difference from case 1 -->
              <averages>
              <AverageTime>value1</AverageTime>
              <category type="TX">9823</category>
              <category type="TY">9112</category>
              <AveragePrice>value2</AveragePrice>
              </averages>
              <!-- End difference from case 1 -->
              <EndTime>11:00:10.000Z</EndTime>
              <ViewItemURL>http://url</ViewItemURL>
                ....
               </item>
                </root>
Run Code Online (Sandbox Code Playgroud)

我从谷歌借用了这个XML,反正我的对象并不总是一样的,有时还有像case2这样的额外元素.现在我想从这两种情况中生成这样的CSV:

ItemID,StartTime,EndTime,ViewItemURL,AverageTime,AveragePrice
4504216603,10:00:10.000Z,10:00:30.000Z,http://url
4504216604,10:30:10.000Z,11:00:10.000Z,http://url,value1,value2
Run Code Online (Sandbox Code Playgroud)

第一行是标题,它也应该包含在csv中.今天我得到了一些有用的链接到stax,我真的不知道什么是正确的/最佳的方法,我现在正在努力3天,不是真的愿意放弃.

告诉我你的想法如何解决这个问题

我忘了提到这是一个非常庞大的xml文件,最高可达1GB

BOUNTY UPDATE:

我正在寻找更多的通用方法,这意味着这应该适用于任何数量的任何深度的节点,有时在例如xml中,可能会发生一个item对象具有比下一个/前一个更多的节点,所以那里也应该是这种情况(因此所有列和值都以CSV格式匹配).

此外,可能会发生节点具有相同名称/ localName但不同的值和属性,如果是这种情况,则新列应显示在具有适当值的CSV中.(我在<averages>标签里面添加了这个案例的例子category)

Mar*_*ren 12

提供的代码应该被视为草图而不是权威性文章.我不是SAX的专家,可以改进实现以获得更好的性能,更简单的代码等.那就是说SAX应该能够处理流式传输大型XML文件.

我会使用SAX解析器进行2次传递来解决这个问题.(顺便说一下,我也会使用CSV生成库来创建输出,因为这会处理所涉及的所有涉及CSV的涉及但是我没有在我的草图中实现这一点).

第一遍: 建立标题列数

第二遍: 输出CSV

我假设XML文件格式正确.我假设我们没有具有预定义顺序的方案/ DTD.

在第一遍中,我假设将为包含文本内容或任何属性的每个XML元素添加CSV列(我假设属性将包含某些内容!).

已建立目标列数的第二遍将执行实际的CSV输出.

基于您的示例XML,我的代码草图将产生:

ItemID,StartTime,EndTime,ViewItemURL,AverageTime,category,category,type,type,AveragePrice
4504216603,10:00:10.000Z,10:00:30.000Z,http://url,,,,,,
4504216604,10:30:10.000Z,11:00:10.000Z,http://url,value1,9823,9112,TX,TY,value2
Run Code Online (Sandbox Code Playgroud)

请注意我使用了google集合LinkedHashMultimap,因为这在将多个值与单个键相关联时很有用.希望这个对你有帮助!

import com.google.common.collect.LinkedHashMultimap;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.LinkedHashMap;
import java.util.Map.Entry;
import org.xml.sax.Attributes;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.helpers.XMLReaderFactory;

public class App {

    public static void main(String[] args) throws SAXException, FileNotFoundException, IOException {
        // First pass - to determine headers
        XMLReader xr = XMLReaderFactory.createXMLReader();
        HeaderHandler handler = new HeaderHandler();
        xr.setContentHandler(handler);
        xr.setErrorHandler(handler);
        FileReader r = new FileReader("test1.xml");
        xr.parse(new InputSource(r));

        LinkedHashMap<String, Integer> headers = handler.getHeaders();
        int totalnumberofcolumns = 0;
        for (int headercount : headers.values()) {
            totalnumberofcolumns += headercount;
        }
        String[] columnheaders = new String[totalnumberofcolumns];
        int i = 0;
        for (Entry<String, Integer> entry : headers.entrySet()) {
            for (int j = 0; j < entry.getValue(); j++) {
                columnheaders[i] = entry.getKey();
                i++;
            }
        }
        StringBuilder sb = new StringBuilder();
        for (String h : columnheaders) {
            sb.append(h);
            sb.append(',');
        }
        System.out.println(sb.substring(0, sb.length() - 1));

        // Second pass - collect and output data

        xr = XMLReaderFactory.createXMLReader();

        DataHandler datahandler = new DataHandler();
        datahandler.setHeaderArray(columnheaders);

        xr.setContentHandler(datahandler);
        xr.setErrorHandler(datahandler);
        r = new FileReader("test1.xml");
        xr.parse(new InputSource(r));
    }

    public static class HeaderHandler extends DefaultHandler {

        private String content;
        private String currentElement;
        private boolean insideElement = false;
        private Attributes attribs;
        private LinkedHashMap<String, Integer> itemHeader;
        private LinkedHashMap<String, Integer> accumulativeHeader = new LinkedHashMap<String, Integer>();

        public HeaderHandler() {
            super();
        }

        private LinkedHashMap<String, Integer> getHeaders() {
            return accumulativeHeader;
        }

        private void addItemHeader(String headerName) {
            if (itemHeader.containsKey(headerName)) {
                itemHeader.put(headerName, itemHeader.get(headerName) + 1);
            } else {
                itemHeader.put(headerName, 1);
            }
        }

        @Override
        public void startElement(String uri, String name,
                String qName, Attributes atts) {
            if ("item".equalsIgnoreCase(qName)) {
                itemHeader = new LinkedHashMap<String, Integer>();
            }
            currentElement = qName;
            content = null;
            insideElement = true;
            attribs = atts;
        }

        @Override
        public void endElement(String uri, String name, String qName) {
            if (!"item".equalsIgnoreCase(qName) && !"root".equalsIgnoreCase(qName)) {
                if (content != null && qName.equals(currentElement) && content.trim().length() > 0) {
                    addItemHeader(qName);
                }
                if (attribs != null) {
                    int attsLength = attribs.getLength();
                    if (attsLength > 0) {
                        for (int i = 0; i < attsLength; i++) {
                            String attName = attribs.getLocalName(i);
                            addItemHeader(attName);
                        }
                    }
                }
            }
            if ("item".equalsIgnoreCase(qName)) {
                for (Entry<String, Integer> entry : itemHeader.entrySet()) {
                    String headerName = entry.getKey();
                    Integer count = entry.getValue();
                    //System.out.println(entry.getKey() + ":" + entry.getValue());
                    if (accumulativeHeader.containsKey(headerName)) {
                        if (count > accumulativeHeader.get(headerName)) {
                            accumulativeHeader.put(headerName, count);
                        }
                    } else {
                        accumulativeHeader.put(headerName, count);
                    }
                }
            }
            insideElement = false;
            currentElement = null;
            attribs = null;
        }

        @Override
        public void characters(char ch[], int start, int length) {
            if (insideElement) {
                content = new String(ch, start, length);
            }
        }
    }

    public static class DataHandler extends DefaultHandler {

        private String content;
        private String currentElement;
        private boolean insideElement = false;
        private Attributes attribs;
        private LinkedHashMultimap dataMap;
        private String[] headerArray;

        public DataHandler() {
            super();
        }

        @Override
        public void startElement(String uri, String name,
                String qName, Attributes atts) {
            if ("item".equalsIgnoreCase(qName)) {
                dataMap = LinkedHashMultimap.create();
            }
            currentElement = qName;
            content = null;
            insideElement = true;
            attribs = atts;
        }

        @Override
        public void endElement(String uri, String name, String qName) {
            if (!"item".equalsIgnoreCase(qName) && !"root".equalsIgnoreCase(qName)) {
                if (content != null && qName.equals(currentElement) && content.trim().length() > 0) {
                    dataMap.put(qName, content);
                }
                if (attribs != null) {
                    int attsLength = attribs.getLength();
                    if (attsLength > 0) {
                        for (int i = 0; i < attsLength; i++) {
                            String attName = attribs.getLocalName(i);
                            dataMap.put(attName, attribs.getValue(i));
                        }
                    }
                }
            }
            if ("item".equalsIgnoreCase(qName)) {
                String data[] = new String[headerArray.length];
                int i = 0;
                for (String h : headerArray) {
                    if (dataMap.containsKey(h)) {
                        Object[] values = dataMap.get(h).toArray();
                        data[i] = (String) values[0];
                        if (values.length > 1) {
                            dataMap.removeAll(h);
                            for (int j = 1; j < values.length; j++) {
                                dataMap.put(h, values[j]);
                            }
                        } else {
                            dataMap.removeAll(h);
                        }
                    } else {
                        data[i] = "";
                    }
                    i++;
                }
                StringBuilder sb = new StringBuilder();
                for (String d : data) {
                    sb.append(d);
                    sb.append(',');
                }
                System.out.println(sb.substring(0, sb.length() - 1));
            }
            insideElement = false;
            currentElement = null;
            attribs = null;
        }

        @Override
        public void characters(char ch[], int start, int length) {
            if (insideElement) {
                content = new String(ch, start, length);
            }
        }

        public void setHeaderArray(String[] headerArray) {
            this.headerArray = headerArray;
        }
    }
}
Run Code Online (Sandbox Code Playgroud)


Rob*_*ana 9

这看起来像是使用XSL的好例子.根据您的基本要求,与自定义解析器或序列化器相比,使用XSL获取正确的节点可能更容易.好处是您的XSL可以定位"// Item // AverageTime"或您需要的任何节点,而无需担心节点深度.

更新:以下是我扔在一起的xslt,以确保它按预期工作.

<?xml version="1.0"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" />
<xsl:template match="/">
ItemID,StartTime,EndTime,ViewItemURL,AverageTime,AveragePrice
<xsl:for-each select="//Item">
<xsl:value-of select="ItemID"/><xsl:text>,</xsl:text><xsl:value-of select="//StartTime"/><xsl:text>,</xsl:text><xsl:value-of select="//EndTime"/><xsl:text>,</xsl:text><xsl:value-of select="//ViewItemURL"/><xsl:text>,</xsl:text><xsl:value-of select="//AverageTime"/><xsl:text>,</xsl:text><xsl:value-of select="//AveragePrice"/><xsl:text>
</xsl:text>
</xsl:for-each>
</xsl:template>

</xsl:stylesheet>
Run Code Online (Sandbox Code Playgroud)

  • 如果这是一个小文件,XSL将是完美的选择,然而,1gb文件的DOM可能占用大量内存.所以我想象一下需要使用某种专门的流式XSL(这个帖子已经提到了Saxonica和VTD-XML)另见:http://stackoverflow.com/questions/2301926/xml-process-large-data (2认同)

Pas*_*ent 6

我不确定我是否理解解决方案的通用性.您是否真的想要为通用解决方案解析1 GB文件两次?如果你想要通用的东西,你为什么跳过<category>你的例子中的元素?你需要处理多少不同的格式?你真的不知道格式是什么(即使一些元素可以被省略)?你能澄清一下吗?

根据我的经验,通常最好以特定方式解析特定文件(但这并不排除使用通用API).我的答案将朝这个方向发展(我会在澄清后更新).


如果您对XML不满意,可以考虑使用一些现有的(商业)库,例如Ricebridge XML ManagerCSV Manager.有关完整示例,请参阅如何使用Java将CSV转换为XML和XML转换为CSV.这种方法非常简单:使用XPath表达式定义数据字段(在您的情况下这是完美的,因为您可以使用"额外"元素),解析文件,然后将结果传递List给CSV组件以生成CSV文件.API看起来很简单,经过测试的代码(他们的测试用例的源代码在BSD风格的许可可用),他们声称支持千兆字节大小的文件.

您可以获得170美元的单一开发人员许可证,与开发者每日费率相比并不是非常昂贵.

他们提供30天试用版,看看.


另一种选择是使用Spring Batch.Spring批处理提供了使用XML文件作为输入或输出(使用StAX和您选择的XML绑定框架)和平面文件作为输入或输出所需的一切.看到:


您还可以使用Smooks进行XML到CSV 转换.也可以看看:


另一种选择是使用StAX解析器来滚动自己的解决方案,或者为什么不使用VTD-XML和XPath.看一下: