Java如何高效解析document？-杰瑞科技汇

Java 解析 Document

在 Java 中解析文档（Document）通常指的是解析 XML 或 HTML 文档，以下是几种常见的 Java 解析文档的方法：

（图片来源网络，侵删）

使用 DOM 解析器

DOM (Document Object Model) 将整个文档加载到内存中,形成一个树形结构。

import org.w3c.dom.*;
import javax.xml.parsers.*;
import java.io.*;
public class DomParserExample {
    public static void main(String[] args) {
        try {
            // 创建 DocumentBuilder
            DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
            DocumentBuilder builder = factory.newDocumentBuilder();
            // 解析 XML 文件
            Document document = builder.parse(new File("example.xml"));
            // 获取根元素
            Element root = document.getDocumentElement();
            System.out.println("Root element: " + root.getNodeName());
            // 获取所有子节点
            NodeList nodeList = root.getChildNodes();
            for (int i = 0; i < nodeList.getLength(); i++) {
                Node node = nodeList.item(i);
                if (node.getNodeType() == Node.ELEMENT_NODE) {
                    Element element = (Element) node;
                    System.out.println("Element: " + element.getNodeName());
                    System.out.println("Value: " + element.getTextContent());
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

使用 SAX 解析器

SAX (Simple API for XML) 是事件驱动的解析器,适合处理大文件。

import org.xml.sax.*;
import org.xml.sax.helpers.DefaultHandler;
import javax.xml.parsers.*;
public class SaxParserExample {
    public static void main(String[] args) {
        try {
            SAXParserFactory factory = SAXParserFactory.newInstance();
            SAXParser saxParser = factory.newSAXParser();
            // 创建自定义的 Handler
            DefaultHandler handler = new DefaultHandler() {
                boolean inElement = false;
                @Override
                public void startElement(String uri, String localName, 
                        String qName, Attributes attributes) {
                    System.out.println("Start element: " + qName);
                    inElement = true;
                }
                @Override
                public void characters(char[] ch, int start, int length) {
                    if (inElement) {
                        System.out.println("Value: " + new String(ch, start, length));
                    }
                }
                @Override
                public void endElement(String uri, String localName, String qName) {
                    System.out.println("End element: " + qName);
                    inElement = false;
                }
            };
            saxParser.parse("example.xml", handler);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

使用 JAXP (Java API for XML Processing)

JAXP 是 Java 提供的标准的 XML 处理 API。

import javax.xml.parsers.*;
import javax.xml.transform.*;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import org.w3c.dom.*;
public class JaxpExample {
    public static void main(String[] args) {
        try {
            // 创建 Document
            DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
            DocumentBuilder builder = factory.newDocumentBuilder();
            Document document = builder.newDocument();
            // 创建根元素
            Element root = document.createElement("root");
            document.appendChild(root);
            // 添加子元素
            Element child = document.createElement("child");
            child.setTextContent("Hello, World!");
            root.appendChild(child);
            // 输出到文件
            TransformerFactory transformerFactory = TransformerFactory.newInstance();
            Transformer transformer = transformerFactory.newTransformer();
            DOMSource source = new DOMSource(document);
            StreamResult result = new StreamResult(new File("output.xml"));
            transformer.transform(source, result);
            System.out.println("XML file created successfully!");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

使用 Jsoup 解析 HTML

Jsoup 是一个专门用于解析 HTML 的 Java 库。

（图片来源网络，侵删）

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupExample {
    public static void main(String[] args) {
        try {
            // 从 URL 解析
            Document doc = Jsoup.connect("http://example.com").get();
            System.out.println("Title: " + doc.title());
            // 从字符串解析
            String html = "<html><head><title>Test</title></head><body><p>Hello</p></body></html>";
            Document docFromString = Jsoup.parse(html);
            System.out.println("Title: " + docFromString.title());
            // 选择元素
            Elements paragraphs = doc.select("p");
            for (Element p : paragraphs) {
                System.out.println("Paragraph: " + p.text());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

使用 StAX 解析器

StAX (Streaming API for XML) 是另一种流式 XML 解析 API。

import javax.xml.stream.*;
import javax.xml.stream.events.*;
import java.io.*;
public class StaxParserExample {
    public static void main(String[] args) {
        try {
            XMLInputFactory factory = XMLInputFactory.newInstance();
            XMLEventReader eventReader = factory.createXMLEventReader(new FileReader("example.xml"));
            while (eventReader.hasNext()) {
                XMLEvent event = eventReader.nextEvent();
                if (event.isStartElement()) {
                    StartElement startElement = event.asStartElement();
                    System.out.println("Start element: " + startElement.getName());
                }
                if (event.isCharacters()) {
                    Characters characters = event.asCharacters();
                    System.out.println("Value: " + characters.getData());
                }
                if (event.isEndElement()) {
                    EndElement endElement = event.asEndElement();
                    System.out.println("End element: " + endElement.getName());
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

选择合适的解析器

DOM: 适合小型文档，需要频繁访问文档结构
SAX: 适合大型文档，内存占用小
StAX: 介于 DOM 和 SAX 之间，提供更好的控制
Jsoup: 专门用于 HTML 解析，功能强大

根据你的具体需求选择合适的解析方法。

（图片来源网络，侵删）

Java如何高效解析document？

Java 解析 Document

使用 DOM 解析器

使用 SAX 解析器

使用 JAXP (Java API for XML Processing)

使用 Jsoup 解析 HTML

使用 StAX 解析器

选择合适的解析器

99ANYc3cd6

艾肯micu声卡调试步骤有哪些？

Java字符串如何转十六进制？

Unity3D小游戏教程从哪开始学？

CAD 2025教程电子书哪里找？

会声会影2025教程有哪些新功能？

Java Socket编程实例具体怎么实现？

CimcoEdit入门教程怎么学？

Java for循环变量赋值的作用域与生命周期？

HTML入门视频教程怎么学更高效？

Java Excel如何导入图片？

pytest cov如何精准衡量Python代码测试覆盖率？

python selenium用法

Windows XP教程，如何快速上手操作？

Django+Vue如何实现前后端分离开发？

string java 默认值是什么？

Python核心知识该如何快速掌握？

Java如何高效解析document？

Java 解析 Document

使用 DOM 解析器

使用 SAX 解析器

使用 JAXP (Java API for XML Processing)

使用 Jsoup 解析 HTML

使用 StAX 解析器

选择合适的解析器

相关推荐

Java Socket编程实例具体怎么实现？