03_10_JavaWeb||day12_XML||day12_XML

今日内容

1. XML
  1. 概念
  2. 语法
  3. 解析

1. XML

1. 概念：Extensible Markup Language 可扩展标记语言

可扩展：标签全部都是自定义的。
标记语音：标签构成的语音

1. 功能

存储数据

用途

配置文件
在网络中传输

2. xml与html的区别（早期只有html）

xml标签都是自定义的，html标签是预定义。
xml的语法严格，html语法松散
xml是存储数据的，html是展示数据

w3c:万维网联盟

3. 语法：

基本语法：

xml文档的后缀名 .xml
xml第一行必须定义为文档声明

第一行为空格也不行

<? xml version='1.0' ?>

xml文档中有且仅有一个根标签

不写也会报错

//这样就错了
    <users>
        ...
        ...
    </users>
    <usertwos>
        ...
        ...
    </usertwos>

属性值必须使用引号(单双都可)引起来

<user id='1'>
    </user>

标签必须正确关闭
xml标签名称区分大小写

快速入门：

<?xml version='1.0' ?>
  <users>
    <user id='1'>
      <name>zhangsan</name>
      <age>23</age>
      <gender>male</gender>
      <br/>
    </user>

    <user id='2'>
      <name>lisi</name>
      <age>24</age>
      <gender>female</gender>
    </user>
  </users>

演示就直接拉文件到浏览器中

组成部分

文档声明

格式：

<?xml 属性列表 ?>

属性列表：

version：版本号，必须的属性
encoding：编码方式

告知解析引擎当前文档使用的字符集，默认值：ISO-8859-1

standalone【了解一下】：是否独立（是否依赖其他文件）

取值：

yes：不依赖其他文件
no：依赖其他文件

指令（了解）：结合css的

* <?xml-stylesheet type="text/css" href="a.css" ?>

标签：标签名称自定义的

规则：（了解）

名称可以包含字母、数字以及其他的字符
名称不能以数字或者标点符号开始
名称不能以字母 xml（或者 XML、Xml 等等）开始
名称不能包含空格

属性

id属性值唯一

文本

CDATA区：在该区域中的数据会被原样展示

格式：

<![CDATA[ 数据 ]]>

案例：将if(a < b && a < c){}原样输出，不需要用转义字符

//1.先写<>
    //2.写！
    //3.写[]
    //4.写CDATA
    //5.在写[]
    //最后放入数据
    <![CDATA [
        if(a < b && a < c){}
    ]]>

约束：规定xml文档的书写规则【++会引入约束文档和阅读即可++】

作为框架的使用者(程序员)：

能够在xml中引入约束文档
能够简单的读懂约束文档

分类：

DTD:一种简单的约束技术

缺点：内容编辑无法约束

Schema:一种复杂的约束技术

DTD：

读懂：

(*)：表示可以为0及以上,+：表示1及以上
（2）表示student加入的元素（排序不能错）
最后是添加了一个id属性

引入dtd文档到xml文档中

内部dtd：将约束规则定义在xml文档中[不常用]
外部dtd：将约束的规则定义在外部的dtd文件中

本地：

<!DOCTYPE 根标签名 SYSTEM "dtd文件的位置">

约束完，尖括号只能写students

网络：

<!DOCTYPE 根标签名 PUBLIC "dtd文件名字" "dtd文件的位置URL">

例子：

Schema:

读懂
引入：

填写xml文档的根元素
引入xsi前缀. (固定的)

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

引入xsd文件命名空间. (路径)

xsi:schemaLocation="http://www.itcast.cn/xml  student.xsd"

为每一个xsd约束声明一个前缀,作为标识

xmlns:a="http://www.itcast.cn/xml"

后面每一个就要加a:

综合：

xmlns加前缀后，用的时候要加上前缀冒号

<students   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns:mvc="http://www.itcast.cn/xml"
xsi:schemaLocation="http://www.itcast.cn/xml  student.xsd">

//如果用<students>的直接写
//如果用mvc的
<mvc:..... />

4. 解析：操作xml文档，将文档中的数据读取到内存中

操作xml文档

解析(读取)：将文档中的数据读取到内存中
写入：将内存中的数据保存到xml文档中。持久化的存储

解析xml的方式：(解析思想，面试题)

DOM【多用在服务器端】：将标记语言文档一次性加载进内存，在内存中形成一颗dom树

优点：操作方便，可以对文档进行CRUD的所有操作
缺点：占内存

SAX【多用在移动端】：逐行读取，基于事件驱动的。（读取一行释放一行的资源）

优点：不占内存。
缺点：只能读取，不能增删改

xml常见的解析器（根据前面的思想，写出来的工具包）

JAXP[没人用]：sun公司提供的解析器，支持dom和sax两种思想
DOM4J【*】：一款非常优秀的解析器
Jsoup【常用】：

jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

PULL：Android操作系统内置的解析器，sax方式的

Jsoup：jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

快速入门：

步骤：

导入jar包
获取Document对象
获取对应的标签Element对象
获取数据

代码：

XML的文件(student.xml)

<?XML version="1.0" encoding="UTF-8"?>

    <students>
        <student number="gxw_01">
            <name>tom</name>
            <age>18</age>
            <sex>male</sex>
        </student>

        <student number="gxw_02">
            <name>tomm</name>
            <age>187</age>
            <sex>female</sex>
        </student>
    </students>

解析XML的类(JsoupDemo1.java)

//2.1获取student.xml的path
    String path = JsoupDemo1.class.getClassLoader().getResource("student.xml").getPath();
    //2.2解析xml文档，加载文档进内存，获取dom树--->Document
    Document document = Jsoup.parse(new File(path), "utf-8");   //接收文件对象字符集编码


    //3.获取元素对象 Element
    //可以将Elements看成一个集合
    Elements elements = document.getElementsByTag("name");//根据标签名称获取
    //结果为：2，因为集合中有两个name
    System.out.println(elements.size());
    //3.1获取第一个name的Element对象
    Element element = elements.get(0);
    //3.2获取数据text方法
    String name = element.text();
    System.out.println(name);


    //结果：
    2
    tom

对象的使用：

Jsoup：工具类（可以做一些爬虫小程序），可以解析html或xml文档，返回Document

parse：解析html或xml文档，返回Document

parse(File in, String charsetName)：++解析xml或html文件的。++

Document document = Jsoup.parse(new File(path), "utf-8");

解析XML常用

parse(String html)：++解析xml或html字符串++
parse(URL url, int timeoutMillis)：++通过网络路径获取指定的html或xml的文档对象++

URL url = new URL("https://wenku.baidu.com/view/89ef78f77c1cfad6195fa70c.html?rec_flag=default&sxts=1587105644441");
    Document document = Jsoup.parse(url, 10000);

解析HTML常用，做一下爬虫的小程序

Document：文档对象。代表内存中的dom树(比如XML文件中的内容)

获取Element对象

getElementById(String id)：根据id属性值获取唯一的element对象

Elements elements = document.getElementById("itcast");

getElementsByTag(String tagName)：根据标签名称获取元素对象集合

Elements elements = document.getElementsByTag("name");

getElementsByAttribute(String key)：根据属性名称获取元素对象集合

Elements elements = document.getElementsByAttribute("id");

getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合

Elements elements = document.getElementsByAttributeValue("number", "gxw");

Elements：元素Element对象的集合。可以当做 ArrayList来使用
Element：元素对象

++获取子元素对象++

getElementById(String id)：根据id属性值获取唯一的element对象
getElementsByTag(String tagName)：根据标签名称获取元素对象集合
getElementsByAttribute(String key)：根据属性名称获取元素对象集合

//通过Elements对象获取子标签对象
    //获取第一个student中的name
    Element elements = document.getElementsByTag("name").get(0);
    Elements ele_ments = elements.getElementsByTag("name");
    System.out.println(ele_ments);

getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合

获取属性值

String attr(String key)：根据属性名称获取属性值

获取文本内容

String text():获取文本内容（纯文本）
String html():获取标签体的所有内容(包括字标签的字符串内容)

Node：节点对象

是Document和Element的父类
大部分是查找的对象

快捷查询方式：（不在需要上面一步一步）

selector:选择器

使用的方法：Elements select(String cssQuery)

语法：参考Selector类中定义的语法
例子：

//查询span标签
    Elements elements = document.select("span");

    //查询id为itcast元素
    Elements elements = document.select("#itcast");

XPath：XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言

使用Jsoup的Xpath需要额外导入jar包。
查询w3cshool参考手册，使用xpath的语法完成查询
代码：

//1.获取student.xml的path
    String path = JsoupDemo6.class.getClassLoader().getResource("student.xml").getPath();
    //2.获取Document对象
    Document document = Jsoup.parse(new File(path), "utf-8");

    //3.根据document对象，创建JXDocument对象
    JXDocument jxDocument = new JXDocument(document);

    //4.结合xpath语法查询
    //4.1查询所有student标签
    List<JXNode> jxNodes = jxDocument.selN("//student");
    for (JXNode jxNode : jxNodes) {
        System.out.println(jxNode);
    }

    System.out.println("--------------------");

    //4.2查询所有student标签下的name标签
    List<JXNode> jxNodes2 = jxDocument.selN("//student/name");
    for (JXNode jxNode : jxNodes2) {
        System.out.println(jxNode);
    }

    System.out.println("--------------------");

    //4.3查询student标签下带有id属性的name标签
    List<JXNode> jxNodes3 = jxDocument.selN("//student/name[@id]");
    for (JXNode jxNode : jxNodes3) {
        System.out.println(jxNode);
    }
    System.out.println("--------------------");
    //4.4查询student标签下带有id属性的name标签 并且id属性值为itcast

    List<JXNode> jxNodes4 = jxDocument.selN("//student/name[@id='itcast']");
    for (JXNode jxNode : jxNodes4) {
        System.out.println(jxNode);
    }