楼主: 臧圩人

Java6.0新特性之StAX--全面解析Java XML分析技术

[复制链接]
论坛徽章:
56
2010年世界杯参赛球队:瑞士
日期:2010-02-26 11:04:012012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:23版主2段
日期:2012-05-31 02:10:00版主2段
日期:2012-05-31 02:10:00ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07现任管理团队成员
日期:2012-10-18 18:22:36
11#
 楼主| 发表于 2010-4-19 13:21 | 只看该作者
大家可能已经发现,这里有一个与之前处理不同的地方,就是我们先打印了用户的信息,再调用next()方法;这与java.util.Iterator的先调用next()方法,再获取对象信息不同。而之前我们一直采用的是与Iterator一样的处理代码。这里,就有一个问题需要说明。

对于XMLStreamReader的next()方法来说,第一次被调用的时候返回的是第二个标记(或事件)。要获得第一个标记,就需要在调用next()方法之前调用getEventType()方法。这是需要注意的地方。我们以上的代码之所以采用Java迭代器一样的处理方式,是因为第一个标记总是START_DOCUMENT,而我们不需要对它进行操作,因此就采用了一种熟悉的编码方式,方便大家理解。XMLEventReader的nextEvent()方法就不存在这样的问题。

EventFilter的用法与StreamFilter相同,不再举例说明。

StAX还为我们提供了另外一种隔离标记或事件对象过滤逻辑的方法,那就是StreamReaderDelegate和EventReaderDelegate这两个类,它们都位于javax.xml.stream.util.*包中。StAX API中大部分都是接口,这两个是确确实实的类。它们都做了同样的工作,就是分别包装了XMLStreamReader和XMLEventReader,并把所有的方法都委托(Delegate)给它们处理,既没有增加任何的方法或逻辑,也没有改变或删除任何方法,因此这里使用的是策略(Strategy)模式。我们可以采用装饰(Decorator)模式,给StreamReaderDelegate或EventReaderDelegate增加新的功能。请看下面的例子:

/**
* 测试StreamReaderDelegate
*
* @author zangweiren 2010-4-19
*
*/
public class TestStreamDelegate {

        public static void main(String[] args) {
                TestStreamDelegate t = new TestStreamDelegate();
                t.listUsers();
        }

        public XMLStreamReader getDelegateReader() {
                String xmlFile = TestStreamFilter.class.getResource("/").getFile()
                                + "users.xml";
                XMLInputFactory factory = XMLInputFactory.newFactory();
                XMLStreamReader reader;
                try {
                        reader = new StreamReaderDelegate(factory
                                        .createXMLStreamReader(new FileReader(xmlFile))) {
                                // 重写(Override)next()方法,增加过滤逻辑
                                @Override
                                public int next() throws XMLStreamException {
                                        while (true) {
                                                int event = super.next();
                                                // 保留用户元素的开始
                                                if (event == XMLStreamConstants.START_ELEMENT
                                                                && "user".equalsIgnoreCase(getLocalName())) {
                                                        return event;
                                                } else if (event == XMLStreamConstants.END_DOCUMENT) {
                                                        return event;
                                                } else {
                                                        continue;
                                                }
                                        }
                                }
                        };
                        return reader;
                } catch (FileNotFoundException e) {
                        e.printStackTrace();
                } catch (XMLStreamException e) {
                        e.printStackTrace();
                }
                return null;
        }

        public void listUsers() {
                XMLStreamReader reader = this.getDelegateReader();
                try {
                        while (reader.hasNext()) {
                                reader.next();
                                if (reader.getEventType() != XMLStreamConstants.END_DOCUMENT) {
                                        // 列出用户的名称和年龄
                                        System.out.println("Name="
                                                        + reader.getAttributeValue(null, "name") + ";age="
                                                        + reader.getAttributeValue(null, "age"));
                                }
                        }
                        reader.close();
                } catch (XMLStreamException e) {
                        e.printStackTrace();
                }
        }

}

测试结果:
Name=Tom;age=28
Name=Lily;age=26
Name=Frank;age=32
Name=Bob;age=45
Name=Kate;age=25

使用道具 举报

回复
论坛徽章:
56
2010年世界杯参赛球队:瑞士
日期:2010-02-26 11:04:012012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:23版主2段
日期:2012-05-31 02:10:00版主2段
日期:2012-05-31 02:10:00ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07现任管理团队成员
日期:2012-10-18 18:22:36
12#
 楼主| 发表于 2010-4-19 13:21 | 只看该作者
EventReaderDelegate的用法与StreamReaderDelegate相同。

现在我们介绍完了StAX的两种解析XML文档的方式,大家也可能对它的使用有了自己的认识。我们最后总结一下:XMLStreamReader和XMLEventReader都允许应用程序迭代底层的XML流,区别在于它们如何对外提供解析后的XML信息片段。前者像个指针,指在刚刚解析过的XML标记的后面,并提供获得关于该标记更多信息的方法。因为不用创建新的对象,所以更节约内存。后者具有更多的面向对象特征,就是个标准的Java迭代器,解析器的当前状态反映在事件对象中,应用程序在处理事件对象的时候不需要访问解析器/读取器。

关于各种XML解析技术的优劣

除了我们刚刚介绍过的StAX这种Java 6.0新支持的XML文档解析技术之外,还有四种广为应用的解析方式,我们将对它们做一个简要介绍,并比较五种技术的优缺点以及性能表现,以供大家在开发中选择何种解析技术做参考。

一、DOM(Document Object Model)

文档对象模型分析方式。以层次结构(类似于树型)来组织节点和信息片段,映射XML文档的结构,允许获取和操作文档的任意部分。是W3C的官方标准。

优点:
1、允许应用程序对数据和结构做出更改。
2、访问是双向的,可以在任何时候在树中上下导航,获取和操作任意部分的数据。

缺点:
1、通常需要加载整个XML文档来构造层次结构,消耗资源大。

二、SAX(Simple API for XML)

流模型中的推模型分析方式。通过事件驱动,每发现一个节点就引发一个事件,通过回调方法完成解析工作,解析XML文档的逻辑需要应用程序完成。

优点:
1、不需要等待所有数据都被处理,分析就能立即开始。
2、只在读取数据时检查数据,不需要保存在内存中。
3、可以在某个条件得到满足时停止解析,不必解析整个文档。
4、效率和性能较高,能解析大于系统内存的文档。

缺点:
1、需要应用程序自己负责TAG的处理逻辑(例如维护父/子关系等),使用麻烦。
2、单向导航,很难同时访问同一文档的不同部分数据,不支持XPath。


三、JDOM(Java-based Document Object Model)

Java特定的文档对象模型。自身不包含解析器,使用SAX。

优点:
1、使用具体类而不是接口,简化了DOM的API。
2、大量使用了Java集合类,方便了Java开发人员。

缺点:
1、没有较好的灵活性。
2、性能较差。

使用道具 举报

回复
论坛徽章:
56
2010年世界杯参赛球队:瑞士
日期:2010-02-26 11:04:012012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:23版主2段
日期:2012-05-31 02:10:00版主2段
日期:2012-05-31 02:10:00ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07现任管理团队成员
日期:2012-10-18 18:22:36
13#
 楼主| 发表于 2010-4-19 13:22 | 只看该作者
四、DOM4J(Document Object Model for Java)

简单易用,采用Java集合框架,并完全支持DOM、SAX和JAXP。

优点:
1、大量使用了Java集合类,方便Java开发人员,同时提供一些提高性能的替代方法。
2、支持XPath。
3、有很好的性能。

缺点:
1、大量使用了接口,API较为复杂。

五、StAX(Streaming API for XML)

流模型中的拉模型分析方式。提供基于指针和基于迭代器两种方式的支持。

优点:
1、接口简单,使用方便。
2、采用流模型分析方式,有较好的性能。

缺点:
1、单向导航,不支持XPath,很难同时访问同一文档的不同部分。

为了比较这五种方式在解析XML文档时的性能表现,我们来创建三个不同大小的XML文档:smallusers.xml(100KB)、middleusers.xml(1MB)、bigusers.xml(10MB)。我们分别用以上五种解析方式对这三个XML进行解析,然后打印出所有的用户信息,并分别计算它们所用的时间。测试代码会在文章后面的附件中给出,这里只比较它们的耗时。

单位:s(秒)
---------------------------------------------------------------
             |     100KB     |      1MB      |      10MB      |
---------------------------------------------------------------
DOM          |    0.146s     |    0.469s     |     5.876s     |
---------------------------------------------------------------
SAX          |    0.110s     |    0.328s     |     3.547s     |
---------------------------------------------------------------
JDOM         |    0.172s     |    0.756s     |     45.447s    |
---------------------------------------------------------------
DOM4J        |    0.161s     |    0.422s     |     5.103s     |
---------------------------------------------------------------
StAX Stream  |    0.093s     |    0.334s     |     3.553s     |
---------------------------------------------------------------
StAX Event   |    0.131s     |    0.359s     |     3.641s     |
---------------------------------------------------------------

由上面的测试结果可以看出,性能表现最好的是SAX,其次是StAX Stream和StAX Event,DOM和DOM4J也有着不错的表现。性能最差的是JDOM。

所以,如果你的应用程序对性能的要求很高,SAX当然是首选。如果你需要访问和控制任意数据的功能,DOM是个很好的选择,而对Java开发人员来讲,DOM4J是更好的选择。

如果只需要做XML文档解析的话,综合性能、易用性、面向对象特征等各方面来衡量,StAX Event无疑是最好的选择。

附录:

附件中包含该文章中用到的全部示例代码,分为两个Eclipse工程:GreatTestProject和XMLTest,均可编译执行。GreatTestProject是对StAX API的示例代码;而XMLTest所有五种解析方式的使用示例,并可以针对它们做性能测试。其中,XMLTest工程的jar包默认是用maven来管理的,你可以根据需要修改。

使用道具 举报

回复
论坛徽章:
56
2010年世界杯参赛球队:瑞士
日期:2010-02-26 11:04:012012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:23版主2段
日期:2012-05-31 02:10:00版主2段
日期:2012-05-31 02:10:00ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07现任管理团队成员
日期:2012-10-18 18:22:36
14#
 楼主| 发表于 2010-4-19 13:22 | 只看该作者
enjoy it!

StAX-XML-zangweiren.rar

51.3 KB, 下载次数: 20

使用道具 举报

回复
论坛徽章:
56
2010年世界杯参赛球队:瑞士
日期:2010-02-26 11:04:012012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:23版主2段
日期:2012-05-31 02:10:00版主2段
日期:2012-05-31 02:10:00ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07现任管理团队成员
日期:2012-10-18 18:22:36
15#
 楼主| 发表于 2010-4-19 13:23 | 只看该作者
写这篇文章用了整整两天的时间,累死我了。

使用道具 举报

回复
论坛徽章:
131
乌索普
日期:2017-09-26 13:06:30马上加薪
日期:2014-11-22 01:34:242014年世界杯参赛球队: 尼日利亚
日期:2014-06-17 15:23:23马上有对象
日期:2014-05-11 19:35:172014年新春福章
日期:2014-04-04 16:16:58马上有对象
日期:2014-03-08 16:50:54马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14
16#
发表于 2010-4-19 13:38 | 只看该作者
nice job

使用道具 举报

回复
论坛徽章:
56
2010年世界杯参赛球队:瑞士
日期:2010-02-26 11:04:012012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:23版主2段
日期:2012-05-31 02:10:00版主2段
日期:2012-05-31 02:10:00ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07现任管理团队成员
日期:2012-10-18 18:22:36
17#
 楼主| 发表于 2010-4-19 15:50 | 只看该作者
LS的咋也绿了?

使用道具 举报

回复
论坛徽章:
0
18#
发表于 2010-4-19 15:50 | 只看该作者
不错,现在公司用的是最差的jdom。。。。真不知道当时谁想的用这个。。。

使用道具 举报

回复
论坛徽章:
56
2010年世界杯参赛球队:瑞士
日期:2010-02-26 11:04:012012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:232012新春纪念徽章
日期:2012-02-13 15:09:23版主2段
日期:2012-05-31 02:10:00版主2段
日期:2012-05-31 02:10:00ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07现任管理团队成员
日期:2012-10-18 18:22:36
19#
 楼主| 发表于 2010-4-19 16:33 | 只看该作者
原帖由 imacback 于 2010-4-19 15:50 发表
不错,现在公司用的是最差的jdom。。。。真不知道当时谁想的用这个。。。

可能项目历史比较悠久了吧,可以考虑升级到新版本。

不过当XML文件比较小,也就是通常我们使用的大小,效率问题并不明显。

使用道具 举报

回复
论坛徽章:
277
马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11版主9段
日期:2012-11-25 02:21:03ITPUB年度最佳版主
日期:2014-02-19 10:05:27现任管理团队成员
日期:2011-05-07 01:45:08
20#
发表于 2010-4-29 19:48 | 只看该作者
我大概是04或05年开始用StAX技术,现在它已经标准化到JDK 6了。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表