Java基础教程(24)--集合

一.Java集合框架

集合，有时也称为容器，是一个用来存储和管理多个元素的对象。Java中的集合框架定义了一套规范，用来表示和操作集合，使具体操作与实现细节解耦。集合框架都包含下列内容：

接口：这些是表示集合的抽象数据类型，它们定义了集合中常见的操作。
实现：为各种集合提供了具体的实现。
算法：这些是对实现集合接口的对象执行有用计算（如搜索和排序）的方法。算法被认为是多态的：也就是说，相同的方法可以用于集合接口的不同实现。

集合框架有以下优点：

减少编程工作：通过提供有用的数据结构和算法，集合可以让我们专注于程序的重要部分，而不是考虑如何实现集合。
提高程序速度和质量：集合框架提供了各种集合的高性能、高质量实现，使得我们在编写代码时不必过多地考虑程序的速度和性能。
促进代码重用：如果我们要实现自己的集合，只需要实现集合框架中的标准接口，就可以应用集合框架提供的算法，而无需重复地“造*”。

二.接口

下图是集合框架中的核心接口：

Java基础教程(24)--集合

Java中的集合框架分为Collection和Map两类。下面是这两个接口的声明：

public interface Collection<E> extends Iterable<E> {...}

public interface Map<K,V> {...}

可以看到，Java中的集合都是泛型的。在声明集合时，应该指定集合中包含的对象类型。这样编译器可以帮我们验证放入集合中的对象类型是否正确，从而减少运行时的错误。

现在对上图中的接口进行介绍：

Collection：集合层次结构的根接口。集合表示一组被称为元素的对象，不同的集合有不同的特点。例如，有些集合允许存在重复的元素，有些则不允许；有些集合的元素是有序的，有些则是无序的。这个接口定义了所有集合都应该具有的行为，至于这些特性行为则交给子接口去定义。Java平台不提供这个接口的直接实现，而是提供它的子接口的实现。
Set：不能包含重复元素的集合。这个接口是对数学概念中的集合的抽象。
List：List表示有序集合。注意，这个有序的意思是位置有序，而不是内容有序。它与Set的区别在于，Set没有位置的概念，并且List允许有重复的元素。
Queue：Queue是对数据结构中的队列的抽象。队列按照（但不一定）FIFO（first in first out，先进先出）方式对元素进行存放，它的插入和删除操作是在不同的两端进行的。
Deque：Deque表示双端队列，它与Queue的不同之处在于它的两端都支持插入和删除。
Map：映射层次结构的根接口。它可以用来存储多个键值对，但是Map中不能包含重复键。

最后的两个接口仅仅是Set和Map接口的排序版本：

SortedSet：按升序维护Set中的元素。它提供了几个额外的操作来利用Set中的顺序。
SortedMap：按键的升序来维护Map中的键值对。它也提供了几个额外的操作来利用Map中的顺序。

下面分别对这些接口进行介绍。

1.Collection接口

集合表示一组被称为元素的对象，它与数组的最大区别就是数组的长度是固定的，而集合的长度是可以动态变化的。当我们无法事先预估元素的个数时，就可以选择使用集合。此外，使用集合还可以利用集合为我们提供的大量实用的方法。

Collection接口用在需要最大通用性地传递集合的地方。例如，按照惯例，每种集合的实现都有一个接受Collection参数的构造方法。这个方法被称为转换构造器，它使用指定集合中的所有元素来初始化新的集合，无论给定的集合是什么类型。换句话说，使用这个构造方法可以转换集合的类型。

例如，现在有一个Collection类型的集合c，它可能是一个List，Set，或者其他类型的集合。下面的代码使用c中的所有元素来初始化一个新的ArrayList（List接口的一种实现）：

List<String> list = new ArrayList<>(c);

Collection接口中包含了一些基本操作：

Java基础教程(24)--集合

Collection接口中还包含了一些操作整个集合的方法：

还有两个将集合转为数组的方法：

这两个方法都可以将集合转换为数组。不过，toArray()方法只能将集合转换为Object数组，而Object数组又无法直接强制转换为其他类型的数组，因此这个方法的实用性就要差一些。而toArray(T[] a)方法则可以直接将集合转换为T类型的数组，如果参数a的长度小于集合中元素的个数，该函数会返回一个包含集合中所有元素的新的数组；如果参数a的长度大于等于集合中元素的个数，该函数就会使用数组a来返回，并且在a[size]放置一个null，size表示集合中元素的个数，这样toArray(T[] t)方法的调用者就可以知道null后面已经没有集合元素了。不过，一般我们传递的数组只是为了传递数组的类型，因此我们会传递一个空的数组进去。例如，假设现在有一个存放字符串的集合，要将它转换为字符串数组，可以像下面这样写：

String[] y = x.toArray(new String[0]);

从Java8之后，Collection接口中增加了两个与流（Stream）相关的方法，Stream stream()和Stream parallelStream()，它们分别用于获取集合的顺序流和并行流。有关流与聚合操作的内容会在稍后进行介绍。

遍历Collection

有三种遍历Collection的操作：(1)增强型for循环；(2)迭代器；(3)聚合操作。

(1)增强型for循环

我们早在流程控制一文中已经提到了增强型for循环。增强型for循环可以用来遍历数组或实现了Iterable接口的类。从上面的Collection接口的声明可以看到，Collection接口继承了Iterable接口，这意味着所有的集合都可以使用增强型for循环来遍历。例如：

public void traverseWithFor(Collection<String> collection) {

    for(String str : collection) {

        System.out.println(str);

    }

}

(2)迭代器

迭代器（也称作游标）是一种可以访问容器中的元素的对象。由于各种容器的内部结构不同，它们的遍历方式也就不尽相同。为了使对容器内元素的遍历方式更加简单和统一，Java引入了迭代器模式。迭代器模式提供了一种方法顺序访问一个聚合对象中的各种元素，但又不暴露该对象的内部表示。Java中定义的迭代器接口是Iterator，每个迭代器都必须实现这个接口。这个接口中最主要的三个方法是：

boolean hasNext();

E next();

void remove();

}

hasNext方法用于判断迭代器所在的位置后面是否存在元素，而next方法则会返回迭代器所在位置后面的元素并移动迭代器，如果没有下一个元素，这个方法会抛出NoSuchElementException。remove方法会移除上一个由next返回的元素，但是这个方法只能在每次调用next后调用一次。

如何获取迭代器呢？或者说什么样的对象才能获取迭代器呢？实际上，如果要从一个对象上获取迭代器，那么这个对象必须是可迭代的，也就是说这个类必须实现Iterable接口，通过Iterable的iterator方法可以获取到迭代器。Collection接口继承了Iterable接口，也就是说所有的集合都是可迭代的，因此可以从所有的集合对象上获取迭代器，并使用迭代器对集合进行遍历。例如：

public void traverseWithIterator(Collection<String> collection) {

    Iterator <String> it = collection.iterator();

    while(it.hasNext()) {

        System.out.println(it.next());

    }

}

如果要在遍历的过程中删除元素，那么使用迭代器的remove方法是最安全的做法，调用Collection中定义的remove方法可能会引起错误。例如：

public void removeSomething(Collection<String> collection, String something) {

    for(int i = 0;i < collection.size(); ++i){

        if(collection.get(i).equals(something)) {

            collection.remove(i);

        }

    }

}

这种方式的问题在于，删除某个元素后，集合内元素的索引发生变化，而我们的索引也在变化，所以会导致你在遍历的时候漏掉某些元素。而且，如果在删除元素时引起了集合的收缩（当集合中的元素个数小于集合的容量且达到一定程度后，集合会自动进行缩容操作），那么我们的最后几次循环可能会造成索引越界。所以，更安全的做法是：

public void removeSomething(Collection<String> collection, String something) {

    Iterator <String> it = collection.iterator();

    while(it.hasNext()) {

        if(it.next().equals(something)) {

            it.remove();

        }

    }

}

(3)聚合操作

在Java8及更高版本中，迭代集合的首选方法是获取流并对其执行聚合操作。聚合操作通常与lambda表达式结合使用，以使用较少的代码使程序更具表现力。以下代码按顺序遍历一个形状集合并打印出红色的形状：

myShapesCollection.stream()

.filter(e -> e.getColor() == Color.RED)

.forEach(e -> System.out.println(e.getName()));

同样，您可以轻松地请求并行流，如果集合足够大并且您的CPU具有足够的核心，这可能是有意义的：

myShapesCollection.parallelStream()

.filter(e -> e.getColor() == Color.RED)

.forEach(e -> System.out.println(e.getName()));

使用此API操作集合元素的方法有很多种。例如，您可能希望将一个Collection的元素转换为String对象，然后将它们连接起来，用逗号分隔：

String joined = elements.stream()

    .map(Object::toString)

    .collect(Collectors.joining(", "));

或者对所有员工的工资进行求和：

int total = employees.stream()

    .collect(Collectors.summingInt(Employee::getSalary)));

这里只是简单的对集合的聚合操作进行一个简单的展示，稍后我们将会详细地介绍聚合操作。

批量操作

批量操作对于整个集合进行操作。下面是Collection中的批量操作：

containsAll(Collection<?> c)：如果集合中包含指定集合的所有元素，则返回true。
addAll(Collection<? extends E> c)：将指定集合的所有元素添加到当前集合。
removeAll(Collection<?> c)：从集合中删除指定集合中的所有元素。
retainAll(Collection<?> c)：从当前集合中删除指定集合中不存在的元素，相当于求交集操作。
clear()：从集合中删除所有元素。

如果集合发生了变化，那么addAll，removeAll和retainAll将会返回true。

为了展示批量操作的效率，下面的例子从集合c中删除指定元素e：

c.removeAll(Collections.singleton(e));

或者说，要从集合中删除所有null元素：

c.removeAll(Collections.singleton(null));

Collections.singleton是一个静态工厂方法，它返回一个只包含一个元素的Set。Collections类提供了大量操作集合的方法，我们会在下面逐一进行介绍。

2.Set接口

Set是Collection接口的子接口，它表示不能含有重复元素的集合，这一点和数学中的集合相同。Set接口包含了继承自Collection接口中的方法并添加了禁止重复元素的限制。

下面是一个简单但实用的使用Set的例子。假设现在有一个集合，我们希望创建另一个包含相同元素但删除了所有重复元素的集合：

Collection<Type> noDups = new HashSet<>(c);

Set最大的特点就是不包含重复项，因此在构造过程中会自动去除重复的元素，而无需我们关心。上面使用的HashSet是Set接口的一个实现，我们会在稍后介绍各接口的常用实现。

由于Set接口继承自Collection接口，因此大部分方法都和Collection接口中的方法相同，这里不再赘述。此外，从Java 9之后，Set接口还提供了of和copyOf两个用于快速创建集合的静态方法，不过需要注意的是，它们创建的都是不可变的Set，也就是说集合一经创建就不能再添加或删除元素。其中of方法接受0个或多个参数，并返回包含这些元素的不可变集合，而copyOf则根据指定的集合来创建包含该集合中元素的不可变集合。下面是使用这两个方法的例子：

Set<Integer> set1 = Set.of(1, 2);

Set<Integer> set2 = Set.copyOf(set1);

此外，对于Set来说，只要两个集合的元素都是相等的，那么我们就认为这两个集合是相等的。这与Object类默认的equals方法不同，因此在实现Set接口时，我们还需要重新定义equals和hashcode方法。

3.List接口

List也是Collection接口的子接口，它表示有序集合，并且它可以包含重复元素，有时也将其称之为列表。除了继承自Collection的方法外，它还支持以下操作：

位置访问：根据在列表中的位置来操作元素，例如get、set、add、addAll和remove等方法。
查找：查找指定的对象并返回其在列表中的位置，查找方法包括indexOf和lastIndexOf。
迭代：除了继承自Collection接口的iterator方法，List接口还提供了listIterator方法来获取利用列表的顺序性对列表进行遍历的迭代器。
视图操作：subList方法获取一个子列表的视图，对它进行操作实际上就是对原列表进行操作。
排序：按照指定的比较规则对列表中的元素进行排序。
替换：按照指定的规则对列表中的元素进行替换。

由于List接口继承自Collection接口，因此Collection中的方法不再介绍。此外，List接口中也包含of和copyOf静态方法，除了它返回的是不可变的List之外，其他都和上面Set接口中的这两个方法一致。下面对List接口中特有的方法进行介绍。

位置访问

下面是List接口中与位置有关的操作：

add(int index, E element)：将指定元素插入到指定位置上。
addAll(int index, Collection<? extends E> c)：将指定集合中的元素插入到指定位置上。
get(int index)：获取指定位置上的元素。
remove(int index)：移除指定位置上的元素。
set(int index, E element)：使用指定元素替换指定位置上的元素。

这些方法的使用都比较简单，这里不再一一举例。

搜索

List接口中提供了indexOf和lastIndexOf两个方法来对指定元素进行查找，它们与contains最大的区别就是如果找到元素，就可以返回元素在列表中的位置。如果没有找到，这两个方法将会返回-1。由于列表允许重复的元素，因此indexOf会返回从前向后查找时该元素第一次出现的位置，而lastIndexOf会返回从后向前查找时该元素第一次出现的位置。例如：

List<Integer> intList = List.of(0, 1, 2, 1, 0);

System.out.println(intList.indexOf(1));

System.out.println(intList.lastIndexOf(1));

上面的例子将会输出：

1

3

迭代器

除了继承自Collection接口的iterator方法，List接口还提供了listIterator方法，使用这个方法可以获取一个ListIterator类型的迭代器。使用这种迭代器可以以任一方向对列表进行遍历，在遍历期间修改列表（不只是删除，还可以插入和替换），或者是获取迭代器的当前位置。

ListIterator接口是Iterator接口的子接口，除了继承自Iterator接口的三个方法外（hasNext、next和remove），它还新增了六个方法。下面是这九个方法的简介：

hasNext()：判断迭代器所在的位置后面是否有元素。
next()：返回迭代器所在位置后面的元素并向后移动迭代器。
hasPrevious()：判断迭代器所在的位置前面是否有元素。
previous()：返回迭代器所在位置前面的元素并向前移动迭代器。
previousIndex()：返回迭代器所在位置的前一个元素的索引。
nextIndex()：返回迭代器所在位置的后一个元素的索引。
add(E e)：将指定元素插入到迭代器所在的位置前面。
set(E e)：使用指定元素替换上一次next或previous操作返回的元素。
remove()：移除上一次next或previous操作返回的元素。

这里有必要解释一下ListIterator的位置的概念。对于一个ListIterator来说，它的游标并不指向某个元素，而是位于两个元素之间。如果一个列表有n个元素，那么ListIterator的游标的位置就有n+1个，例如：

Java基础教程(24)--集合

上图中的列表共有4个元素，那么游标可能出现的位置就有5个，分别是0，1，2，3，4。

List接口的listIterator方法有两种形式。listIterator()返回一个游标在0处的迭代器，listIterator(int index)返回一个指定位置的迭代器，例如上图中，list.listIterator(4)就会返回最后一个位置的迭代器。通过这两个方法和ListIterator，就可以从任意位置，任意方向去遍历列表。

需要注意的是，remove和set方法并没有涉及到迭代器的位置，它们操作的是上一次next或previous操作返回的元素。除此之外，在调用next或previous之后，调用remove之前，这中间不能调用add方法；而在调用next或previous之后，调用set之前，这中间不能调用add或remove方法。这是由于如果在set或remove之前进行了其他操作，列表会发生变化，此时再调用这两个方法有可能产生歧义，因此为了避免这种情况，这两个方法将会抛出IllegalArgumentException。

视图操作

subList(int fromIndex, int toIndex)是一个视图操作，它返回一个子列表，这个子列表包含了原列表中索引在fromIndex到toIndex（不包括toIndex）之间的元素。之所以说subList是一个视图操作，是因为它返回的子列表的元素都是原列表中的元素，而不是它们的拷贝。对子列表的操作也会影响到原列表。

例如，下面的例子从列表中移除子列表视图中的元素：

list.subList(fromIndex, toIndex).clear();

这比我们使用迭代器去删除这些元素简洁不少。下面的例子在指定的范围中查找元素：

int i = list.subList(fromIndex, toIndex).indexOf(o);

int j = list.subList(fromIndex, toIndex).lastIndexOf(o);

注意，上面的例子中返回的是元素在子列表中的索引，而不是在原列表中的索引。

尽管subList操作非常强大，但在使用时必须小心。在修改了原列表后，不要再使用之前的subList，否则可能会出现异常，例如：

List<String> list = new ArrayList<>();

list.add("0");

list.add("1");

list.add("2");

list.add("3");

List<String> subList = list.subList(0,2);

list.remove(1);

System.out.println(subList);

上面的程序中，subList是索引为0和1的两个元素的视图，从原集合中删除索引为1的元素，视图也会随着改变。但是对于我们来说，如果这个操作在其他的方法中，那么我们无法感知视图的变化，程序也有可能会抛出异常。为了避免这种情况，建议在修改原始列表后，不要再使用之前的视图，而是应该重新获取。

排序

List接口提供了一个默认方法sort(Comparator<? super E> c)，它接受一个Comparator类型的对象作为参数，然后根据该对象中定义的比较规则对列表进行排序。Comparator定义了某种类型的比较规则，它只有一个抽象方法compare(T o1, T o2)，因此它是一个函数式接口，也就是说可以向sort方法传递lambda表达式。当o1大于o2时，compare方法返回正数；当o1小于o2时，compare方法返回负数；当o1等于o2时，compare方法返回0。

现在假设我们有一个Apple类，这个类有weight以及其他的属性。当一个Apple的weight大于另一个Apple的weight时，我们就认为这个Apple是“大于”另一个Apple的。根据这个定义，我们来编写用于排序Apple列表的Comparator：

public class AppleComparator implements Comparator<Apple> {

    public int compare(Apple a1, Apple a2) {

        return a1.getWeight() - a2.getWeight();

    }

}

现在就可以对Apple列表appleList进行排序了：

appliList.sort(new AppleComparator());

当然，可以使用更加简洁的lambda表达式，这样就无需编写AppleComparator类了，只需要像下面这样：

appleList.sort((a1, a2) -> a1.getWeight() - a2.getWeight());

sort方法首先将列表转换为数组，然后使用归并排序对数组进行排序，最后再将数组中的元素放回列表中。该sort方法提供了快速、稳定的排序（排序算法的稳定性是排序前后相等元素的相对顺序不发生改变）。

替换

List接口提供了一个默认方法replaceAll(UnaryOperator operator)，用于替换列表中的元素。这个方法接受一个UnaryOperator对象作为参数，这是Java中定义的一个函数式接口，因此我们一般直接向replaceAll方法传递lambda表达式。UnaryOperator接口的抽象方法apply接受一个参数，对它执行某些操作然后返回操作后的结果。replaceAll方法会对所有的元素执行apply方法，然后用返回的结果替换原来的元素。

利用这个方法可以对满足条件的元素执行替换操作。例如，现在有一个存放字符的集合charList，我们需要找到其中的小写字母并将其转换为大写字母：

charList.replaceAll(c -> {

    if (Character.isLowerCase(c)) {

        return Character.toUpperCase(c);

    }

    return c;

});

列表算法

除了List接口中声明的这些方法以外，Collections类还提供了许多操作List的方法。下面对这些方法进行简要地介绍：

sort——对指定的列表进行排序，本质上只是调用了List自身的sort方法。
shuffle——随机打乱列表中元素的顺序。
reverse——反转列表。
rotate——将列表按照指定的距离进行旋转。
swap——交换两个指定索引处的元素。
replaceAll——使用指定的新元素替换指定的旧元素。
fill——使用指定元素替换列表中的所有元素。
copy——将源List中的元素拷贝到目标List。
binarySearch——使用二分查找算法在列表中查找元素，前提是列表必须是排好序的（升序）。
indexOfSubList——从前向后查找子列表在指定列表中出现的位置，若未找到则返回-1。
lastIndexOfSubList——从后向前查找子列表在指定列表中出现的位置，若未找到则返回-1。

4.Queue接口

队列是在处理之前保存元素的集合。除了基本的集合操作外，Queue接口还新增了以下方法：

E element();

boolean offer(E e);

E peek();

E poll();

E remove();

Queue的每种方法都存在两种形式：一种是在操作失败的时候抛出异常，另一种在操作失败的时候返回特定值（null或false，取决于操作类型）。下表列出了这些方法：

Java基础教程(24)--集合

队列通常（但不一定）是按照先进先出（FIFO，first in first out）的方式来保存元素。优先级队列除外，它们根据元素的值对元素进行排序。无论使用什么顺序，队列头部的元素都是通过调用remove或poll方法将会被删除的那个元素。在FIFO队列中，所有的新元素都被插入队列的尾部。其他类型的队列可能使用不同的排列规则。每个Queue接口的实现都必须指定其排序特性。

有些类型的队列会限制元素的个数，这样的队列被认为是有界的。java.util.concurrent包中的某些Queue的实现是有界的，而java.util包中的Queue的实现则不是。

Queue接口中的add方法继承自Collection接口，它向队列中插入一个元素。如果元素的个数超出容量限制，这个方法会抛出一个IllegalStateException异常。另一个向队列中插入元素的方法是offer方法，当插入失败时，这个方法将会返回false。当使用有界队列时，更推荐使用这个方法。

remove和poll方法都返回并移除队列头部的元素。当队列为空时，remove抛出NoSuchElementException异常，而poll则返回null。

element和peek方法返回但不移除队列头部的元素。当队列为空时，element抛出NoSuchElementException异常，而peek则返回null。

Queue的实现类通常来说不允许插入null元素。但LinkedList类是个例外，它也是Queue的实现类，但是它允许插入null。在使用LinkedList时应该避免插入null元素，因为null被peek和poll方法作为特殊的返回值。

下面的例子将队列用作一个倒计时器：

public void countdown(int seconds) throws InterruptedException {

    int time = Integer.parseInt(seconds);

    Queue<Integer> queue = new LinkedList<Integer>();

    for (int i = time; i >= 0; i--)

        queue.add(i);

    while (!queue.isEmpty()) {

        System.out.println(queue.remove());

        Thread.sleep(1000);

    }

}

该程序将会每秒输出一个数字，这个数字代表倒计时所剩的秒数。由于我们入队时是按照从大到小的顺序，而出队时也是从大到小的顺序，这正好证明了队列的先进先出的特性。

5.Deque接口

Deque是Queue的子接口，它表示双端队列。双端队列是支持在两端进行插入和删除操作的队列。正是由于双端队列支持在两端进行操作，它既可以被用作后进先出的栈，也可以被用作先进先出的队列。

由于Deque支持在两端进行插入、删除和查看操作，再加上每种操作都有抛出异常和返回特殊值两种形式，因此Deque接口*定义了以下12个访问元素的方法：

Java基础教程(24)--集合

以上这些方法与除了操作的位置不同外，其余与Queue中的方法完全相同，这里不再赘述。除此之外，Deque还提供了removeFirstOccurence和removeLastOccurence两个方法，这两个方法分别删除指定元素在Deque中第一次和最后一次出现的位置。

6.Map接口

Map接口表示映射结构，它是对数学概念中的映射的抽象，可以将它理解为存储键值对的集合。但实际上它并不是集合，它是Java集合框架中映射结构的*接口。通过给定的键可以很快地从Map中找到对应的值。Map中不能包含重复的键，如果向Map中插入键相同的键值对，那么Map中这个键对应的值将会被新的值覆盖。

下面是Map接口中定义的基本方法：

Java基础教程(24)--集合

需要注意的是，某些Map实现支持null值，而有些则不支持。因此，当使用get方法获取value时，若返回null，则需要根据对应的实现类来进行判断是key不存在还是key对应的value是null。当然，为了保险起见，可以先调用containsKey来判断指定的key是否存在。

除了操作单个元素的基本操作外，Map中还定义了两个批量操作映射的方法：

Java基础教程(24)--集合

Map中定义了一个内部接口Entry，它用来表示Map中的一个键值对。Entry接口提供了getKey和getValue方法，可以分别获得键值对的键和值。Map接口还提供了一个静态方法entry(K key,V value)，这个方法将会根据指定的key和value生成一个不可变的Entry类型的对象。

Map接口提供了针对键、值和键值对的集合视图：

keySet——返回包含Map中所有键的Set。
values——返回包含Map中所有值的Collection。这个Collection不会是Set，因为多个键可能对应相同的值。
entrySet——返回包含Map中所有键值对的Set。

Map接口中还提供了几个可以直接返回Map实例的方法：

Java基础教程(24)--集合

copyOf相当于是对原Map的拷贝，of方法根据指定的若干对键和值来创建Map，ofEntries接受的是可变参数，它根据指定的若干个键值对来创建Map。需要注意的是，这些方法返回的都是不可变的Map，对其调用任何可能会改变映射内容的方法都会抛出异常。

此外，Map接口中还提供了一些实用的默认方法，下面对这些方法做一个简单的介绍，具体的使用方法可以参考官方的API：

Java基础教程(24)--集合

7.SortedSet接口

SortedSet是Set接口的子接口，它实际上是Set的排序版本。它对内部的元素按照自然顺序或者在构建SortedSet的实例时指定的Comparator来对元素进行排序。我们上面提到的TreeSet就实现了SortedSet接口。除了继承自Set接口的方法外，SortedSet还提供了以下操作：

范围视图：获取任意范围内的元素的视图。
访问双端元素：返回第一个或最后一个元素。
获取比较器：返回排序使用的比较器（如果有）。

自然顺序是指在比较一个对象和另外一个对象时，先将该对象强转为Comparable类型。若类型转换失败，则抛出ClassCastException，这表示该类没有实现Comparable接口，即没有提供默认的比较方法；若转换成功，则通过compartTo方法的返回值来对两个对象进行比较。

SortedSet中定义了以下方法：

public interface SortedSet<E> extends Set<E> {

    // Range-view

    SortedSet<E> subSet(E fromElement, E toElement);

    SortedSet<E> headSet(E toElement);

    SortedSet<E> tailSet(E fromElement);

    // Endpoints

    E first();

    E last();

    // Comparator access

    Comparator<? super E> comparator();

}

SortedSet的视图操作共有三个方法：

subSet(E fromElement, E toElement)：返回包含范围在fromElement（包含）到toElement（不包含）之间的元素的集合。
headSet(E toElement)：返回小于toElement的元素的集合。
tailSet(E fromElement)：返回大于fromElement的元素的集合。

与List的视图不同，即使修改了原集合，SortedSet的视图仍然有效。List的视图是原集合中的特定元素，当原集合发生结构性的变化后，视图无法继续保持原来的特定元素；而SortedSet的视图则是原集合中特定范围内的元素，只与范围有关，因此在修改了原集合之后，视图仍然有效。

访问双端元素的方法是first()和last()，它们分别返回SortedSet中的第一个元素和最后一个元素。

通过comparator()方法可以获取SortedSet在排序时使用的比较器。如果集合内元素是按照自然顺序排序的，这个方法将会返回null。

8.SortedMap接口

SortedMap是Map接口的子接口，它实际上是Map的排序版本。它按照自然顺序或者在构建SortedMap的实例时指定的Comparator来对键进行排序。与SortedSet类似，它也提供了以下操作：

范围视图：获取键在指定范围内的子映射的视图。
访问双端键：返回第一个或最后一个键。
获取比较器：返回排序使用的比较器（如果有）。

SortedMap中定义了以下方法：

public interface SortedMap<K, V> extends Map<K, V>{

    // Range-view

    SortedMap<K, V> subMap(K fromKey, K toKey);

    SortedMap<K, V> headMap(K toKey);

    SortedMap<K, V> tailMap(K fromKey);

    // Endpoints

    K firstKey();

    K lastKey();

    // Comparator access

    Comparator<? super K> comparator();

}

这些方法与SortedSet中定义的方法基本类似，可以类比参照上一小节中对这些方法的介绍，这里不再进行过多描述。

三.实现

在讲完了Java集合框架中的基本接口后，现在我们来学习这些接口的实现。本文描述了以下几种实现：

通用实现——最常用的实现，专为日常使用而设计。
专用实现——专门为一些特殊场景设计，性能、限制或行为可能与通用实现不同。
并发实现——旨在支持高并发性。
包装实现——包装其他类型的实现（通常是通用实现），以增加或限制功能。
便捷实现——通常是通过静态工厂方法提供的迷你实现，为特殊集合（例如单例集）的实现提供方便、有效的替代方案。
抽象实现——可以理解为骨架实现，有助于方便、快速地构建自定义实现。

下面将依次对第二节中提到的接口的实现进行介绍。在介绍实现时，由于之前已经对各接口中定义的方法做了说明，因此不再重复阐述，只是描述各实现类的特点和注意事项。

1.Set实现

通用实现

Java平台中提供的Set接口的通用实现是HashSet、TreeSet和LinkedHashSet。HashSet将元素存在一个哈希表中，是性能最佳的实现，但是它不能保证迭代的顺序。TreeSet将元素存储在一个红黑树中，根据元素的值来进行排序，它比HashSet慢得多。LinkedHashSet同时具备了链表和哈希表的特点，使用链表来保存插入顺序，使用哈希表来快速定位元素，也就是说它的遍历顺序和插入顺序是一致的，但同时它的成本也是最高的。在实际使用过程中，可以灵活选择这几种Set。如果对遍历的顺序没有要求或者不需要遍历，可以选择HashSet；如果在遍历时需要按照元素的值进行排序，可以选择TreeSet；如果需要按照插入顺序遍历，可以选择LinkedHashSet。

实际上，有关这些实现类还有很多实现细节没有介绍。由于本系列是基础教程，因此不再过多深入。后续会推出阅读Java源码的系列，届时将会对Java中部分常用的类的源码进行详细介绍，敬请期待。

专用实现

Java提供了两个Set接口的专用实现——EnumSet和CopyOnWriteArraySet。

EnumSet是为枚举类型提供的高性能实现。EnumSet的所有成员必须具有相同的枚举类型。下面是EnumSet类中提供的构造EnumSet的工厂方法：

Java基础教程(24)--集合

EnumSet内部维护了一个存储该枚举类型所有成员的数组，还有一个表示每个枚举成员是否存在于集合内的“位向量”，这个“位向量”可能是long也可能是long数组。因为每个枚举对象都有一个序号，因此位向量使用序号对应的位上的0或1来表示该对象是否存在于集合中。例如，现在我们有一个关于星期的枚举类型：

public enum Day {

    SUNDAY, MONDAY, TUESDAY, WEDNESDAY, THURSDAY, FRIDAY, SATURDAY

}

我们使用of方法来创建一个EnumSet实例：

Set<Day> days = EnumSet.of(Day.TUESDAY, Day.FRIDAY);

那么对于这个EnumSet来说，它的位向量是下面这样的：

Java基础教程(24)--集合

实际上，EnumSet是一个抽象类。java.util包中提供了它的两个子类，分别是RegularEnumSet和JumboEnumSet，RegularEnumSet使用一个long变量来表示位向量，而JumboEnumSet则使用long数组来表示位向量。在使用EnumSet的工厂方法构建实例时，它会自己选择使用哪个子类，而无需我们关心。

现在来看另外一个专用实现——CopyOnWriteArraySet。在介绍这个类之前，首先我们要了解一下CopyOnWrite的概念。这个术语的字面意思是在写的时候复制，实际上也是这么做的。在修改某个数据时，我们先拷贝一份副本，在副本上进行写操作，然后再替换之前的数据。这样可以避免在写数据时，因为加锁而造成其他读线程等待的情况。CopyOnWriteArraySet内部使用数组来保存元素，当对集合进行修改操作时（例如add、set或remove等），它会先将数组拷贝出一个副本，然后对这个副本进行操作，最后再将对原数组的引用指向新的数组。实际上，CopyOnWriteArraySet内部使用了下文中List接口的实现类CopyOnWriteArrayList来保存元素，而CopyOnWriteArrayList才是真正使用数组来实现的。

正是由于这个机制，CopyOnWriteArraySet具有以下特点：

它适用于读操作远远多于写操作的场景，因为写操作代价较高，它通常意味着复制整个底层数组；
它是线程安全的；
迭代器不支持remove操作；
读进程有可能读到的是过时的数据；
读写进程之间没有竞争，但是写进程之间还是需要加锁。

2.List实现

通用实现

Java集合框架中提供了两个List集合的通用实现——ArrayList和LinkedList。ArrayList内部使用数组实现，因此它的访问速度非常快。但正是由于它内部使用数组，因此在指定位置处添加或删除元素时需要移动后面所有的元素。需要注意的是，它并不是线程安全的。不过，可以使用Collections类的synchronizedList方法来将一个ArrayList转换为线程安全的对象。

如果需要频繁地在List的开头添加或删除元素并且元素的个数非常多时，则应考虑使用LinkedList。它是使用链表来实现的，因此它的添加和删除元素操作非常快。但正是由于链式结构，因此它的访问速度则需要花费线性时间。此外，LinkedList还实现了Deque，因此它支持Deque接口中定义的操作。

在使用List时，要充分考量程序的性能，来选择使用ArrayList还是LinkedList。一般来说，ArrayList更快。

专用实现

Java提供了两个List接口的专用实现——Vector和CopyOnWriteArrayList。

Vector是线程安全的List，并且它比经过Collections.synchronizedList处理过的ArrayList还要快一点。但是Vector中含有大量的遗留代码，毕竟它从Java1.0就开始存在了，当时还没有集合框架。从Java1.2开始，这个类被改进以实现List接口，使其成为Java集合框架的一员。因此，在使用Vector时，应该尽量使用List接口去操作。

CopyOnWriteArrayList的原理在上文中对CopyOnWriteArraySet的介绍中已经做了说明，这里不再赘述。

3.Map实现

通用实现

Map接口的三个通用实现分别是HashMap、TreeMap和LinkedHashMap。如果你想要最快的速度而不关心迭代顺序，请使用HashMap。如果需要SortMap操作或按键排序的迭代顺序，请使用TreeMap。如果需要接近HashMap的速度和按插入顺序迭代，请使用LinkedHashMap。这三个实现和Set接口中的三个通用实现非常类似。

虽然LinkedHashMap默认是按照插入顺序来排序，但是可以在构造LinkedHashMap实例时指定另外一种排序规则。这种规则按照最近对每个键值对的访问次数来排序，通过这种Map可以很方便地构建LRU缓存（Least Recently Used，一种缓存策略）。LinkedHashMap还提供了removeEldestEntry方法，通过覆盖该方法，可以定义何时删除旧缓存。例如，假如我们的缓存最多只允许100个元素，在缓存中的元素个数达到100个之后，每次添加新元素时都要清除旧元素，从而保持100个元素的稳定状态，可以像下面这样：

private static final int MAX_ENTRIES = 100;

protected boolean removeEldestEntry(Map.Entry eldest) {

    return size() > MAX_ENTRIES;

}

实际上，还有一个Map接口的通用实现——Hashtable（注意小写）。它也是从Java1.0开始就存在的一个“元老”。从Java1.2开始，它被改进以实现Map接口。它是线程安全的，但是由于效率较低，单线程时可以使用HashMap来代替，多线程时又可以使用下文中的ConcurrentHashMap来代替，因此这个类现在已经不再推荐使用。

专用实现

Java提供了三个Map接口的专用实现——EnumMap，WeakHashMap和IdentityHashMap。

EnumMap用在那些需要将枚举元素作为键的映射中，它的底层是使用数组来实现的。EnumMap是一个Map与枚举键一起使用的高性能实现。该实现将Map接口的丰富性和安全性与数组的速度相结合。如果要将枚举映射到值，则应始优先考虑EnumMap。

WeakHashMap只存储对其键的弱引用。JVM提供了四种类型的引用，分别是强引用、弱引用、软引用和虚引用，可以让程序员来决定某些对象的生命周期，有利于JVM进行垃圾回收。在进行垃圾回收时，若某个对象只具有弱引用，它一定会被回收。因此，当WeakHashMap中的键不再被外部引用时，JVM将会对它进行回收，该键值对也会消失。

IdentityHashMap在比较键时使用引用相等性代替对象相等性。在正常的Map实现中，当key1.equals(key2)返回true时，我们就认为这两个key是相等的；而在IdentityHashMap中，只有当key1==key2时，才认为这两个key是相等的。

并发实现

ConcurrentHashMap时Java提供的一个高并发、高性能的Map实现，它位于java.util.concurrent包中。这个实现在执行读操作时不需要加锁。因为这个类旨在作为Hashtable的替代品，因此，除了实现ConcurrentMap接口外（为线程安全Map定义的接口），它还保留了大量Hashtable中的遗留代码。因此，在使用ConcurrentHashMap时，应该尽量使用ConcurrentMap或Map接口去操作。

4.Queue实现

通用实现

Queue接口的通用实现包括LinkedList和PriorityQueue。

我们已经在List实现中介绍了LinkedList，为什么还要在Queue实现中再次提到它呢？这是因为LinkedList同时实现了List接口和Deque接口，而Deque接口又是Queue的子接口。因此，LinkedList可以算是List、Queue和Deque的实现。当我们使用不同的接口去引用LinkedList实例时，它就会表现出不同的行为。

PriorityQueue用来表示基于堆结构的优先级队列。它使用指定的排序规则来对元素进行排序，而不是按照队列默认的先进先出的顺序。在对PriorityQueue进行遍历时，迭代器不保证以任何特定顺序遍历优先级队列的元素。如果需要有序遍历，可以使用Arrays.sort(pq.toArray())。

并发实现

java.util.concurrent包中提供了一组Queue实现类，这些类都是线程安全的，因此可以在多线程中使用。这些类根据是否会阻塞线程可以分为两类：一类是非阻塞的，这里指的是ConcurrentLinkedQueue，它是使用链表实现的线程安全的队列；另一类是阻塞的，它们都实现了BlockingQueue接口，这个接口继承了Queue接口并且增加了一些额外的操作，支持当获取队列元素但是队列为空时，会阻塞等待队列中有元素再返回或超时返回；也支持添加元素时，如果队列已满，那么等到队列可以放入新元素时再放入或超时返回。

下表是BlockingQueue接口中操作元素的方法，除了继承自Queue接口的抛出异常和返回特定值的形式外，又增加了阻塞和超时两种形式：

Java基础教程(24)--集合

下面是BlockingQueue接口的实现类：

LinkedBlockingQueue——由链式节点实现的有界FIFO阻塞队列。
ArrayBlockingQueue——由数组实现的有界FIFO阻塞队列。
PriorityBlockingQueue——由堆实现的*阻塞优先级队列。
DelayQueue——支持延时获取元素的*阻塞队列。
SynchronousQueue——同步阻塞队列，无容量，它的每个插入操作都要等待其他线程相应的移除操作，反之亦然。

此外，java.util.concurrent包中还定义了TransferQueue接口，它是BlockingQueue的子接口。在添加元素时，除了BlockingQueue中定义的方法，TransferQueue还定义了transfer和tryTransfer方法。transfer方法在传递元素时，若存在消费者，则立即将元素传递给消费者，否则将元素插入到队列尾部；tryTransfer方法在传递元素时，若存在消费者，则立即将元素传递给消费者，否则将元素插入到队列尾部，若在指定的时间内元素没有被消费者获取，则将该元素从队列中移除并返回false。TransferQueue接口有一个基于链式节点的*实现——LinkedTransferQueue。

5.Deque实现

通用实现

Deque接口的通用实现包括LinkedList和ArrayDeque。ArrayDeque使用可调整大小的数组实现，而 LinkedList则是链表实现。

LinkedList允许null元素，而ArrayDeque则不允许。在效率方面，ArrayDeque比LinkedList两端的添加和删除操作更高效。LinkedList的最佳使用方式是在迭代期间删除元素。不过LinkedList并不是迭代的理想结构，并且它比ArrayDeque占用更多的内存。此外，无论是LinkedList还是ArrayDeque均不支持多个线程的并发访问。

并发实现

LinkedBlockingDeque类是Deque接口的并发实现。和BlockingQueue相同，它在获取双端队列元素但是队列为空时，会阻塞等待队列中有元素再返回或超时返回；也支持在双端添加元素时，如果队列已满，那么等到队列可以放入新元素时再放入或超时返回。

上面的LinkedBlockingDeque类是阻塞的，java.util.concurrent包中还定义了一个非阻塞的Deque接口实现类——ConcurrentLinkedDeque，它是使用链表实现的线程安全的双端队列。

6.包装实现

位于java.utils包中的Collections也是Java集合框架的一员，但它不是任意一种集合，而是一个包装类。它包含各种有关集合操作的静态方法，这个类不能实例化。它就像一个工具类，服务于集合框架。

这个类提供了很多的静态工厂方法，通过这些方法，可以提供具有某些特性的集合（例如空集合，同步集合，不可变集合等），或者包装指定的集合，使之具有某些特性。下面对这个类中的一些方法进行介绍。

同步包装器

同步包装器将自动同步（线程安全）特性添加到任意集合上。Collection，Set，List，Map，SortedSet和 SortedMap接口都有一个静态工厂方法。

public static <T> Collection<T> synchronizedCollection(Collection<T> c);

public static <T> Set<T> synchronizedSet(Set<T> s);

public static <T> List<T> synchronizedList(List<T> list);

public static <K,V> Map<K,V> synchronizedMap(Map<K,V> m);

public static <T> SortedSet<T> synchronizedSortedSet(SortedSet<T> s);

public static <K,V> SortedMap<K,V> synchronizedSortedMap(SortedMap<K,V> m);

每一个方法都会返回指定集合的包装对象，这个集合是线程安全的。所有对于集合的操作都应该通过这个集合来完成，保证这一点最简单的方法就是不再保留对原集合的引用。

面对并发访问，用户必须在迭代时手动同步返回的集合。这是因为迭代是通过对集合的多次访问来完成的，而返回的集合虽然是同步的，但是它只能保证每一次对集合的操作都是线程安全的，而不能保证对于几个的多次操作也是安全的，因此这些操作必须组成一个单独的原子操作。以下是迭代通过包装器返回的同步集合的习惯用法：

Collection<Type> c = Collections.synchronizedCollection(myCollection);

synchronized(c) {

    for (Type e : c)

        foo(e);

}

有关synchronized关键字和多线程的内容会在之后的文章中进行介绍。

不可变包装器

不可变包装器可以使集合变为不可变集合，从而具有只读属性，任何会对集合进行改变的操作都会抛出一个UnsupportedOperationException。与同步包装器一样，六个核心接口中的每一个都有一个静态工厂方法：

public static <T> Collection<T> unmodifiableCollection(Collection<? extends T> c);

public static <T> Set<T> unmodifiableSet(Set<? extends T> s);

public static <T> List<T> unmodifiableList(List<? extends T> list);

public static <K,V> Map<K, V> unmodifiableMap(Map<? extends K, ? extends V> m);

public static <T> SortedSet<T> unmodifiableSortedSet(SortedSet<? extends T> s);

public static <K,V> SortedMap<K, V> unmodifiableSortedMap(SortedMap<K, ? extends V> m);

为了保证集合的绝对不变性，应该在获取集合的不可变包装后，不再保留对原集合的引用。

7.便捷实现

本节描述了几种便捷实现，当您不需要集合的全部功能时，它们比通用实现更方便，更高效。本节中的所有实现都是通过静态工厂方法提供的。

数组的列表视图

Arrays.asList方法可以接受一个数组并返回该数组的列表视图。对于集合的改变会应用在数组上，反之亦然。集合的大小就是数组的大小且不能更改，如果再集合视图上调用可能会修改集合大小的方法将会抛出一个UnsupportedOperationException。

这个实现的一般用途是作为数组和集合之间的桥梁。它允许我们将数组传递给需要Collection或List的方法。这种实现还有一个用途，如果我们需要固定大小的List，它比任何通用实现都要高效：

List<String> list = Arrays.asList(new String[size]);

指定元素的集合

下面的方法可以根据指定的元素来创建集合：

Arrays.asList(T... a)——返回包含指定的若干个元素的不可变List。
Collections.nCopies(int n, T o)——返回包含n个指定元素o的不可变List（这些元素都是o的引用）。
Collections.singleton(T o)——返回只包含该对象的不可变Set。

空集合或空映射

Collections类提供了返回空Set、List和Map的方法，它们分别是emptySet()、emptyList()和emptyMap()。

四.算法

本节中所有的算法都来自Collections类，这些算法绝大多数都以List实例作为参数，也有少部分是以Collection实例作为参数的。下面是这些算法：

sort(List list)——按照自然顺序对List进行排序。
sort(List list, Comparator<? super T> c)——根据指定的比较器对List进行排序。
shuffle(List<?> list)——使用默认随机源打乱List元素顺序。
shuffle(List<?> list, Random rnd)——使用指定随机源打乱List元素顺序。
reverse(List<?> list)——反转List中的元素顺序。
fill(List<? super T> list, T obj)——使用指定元素替换List中的所有元素。
copy(List<? super T> dest, List<? extends T> src)——将src中的元素拷贝到dest中。dest的size要大于等于src的size。
swap(List<?> list, int i, int j)——交换指定位置的元素。
addAll(Collection<? super T> c, T... elements)——将若干元素添加到指定的Collection中。
binarySearch(List<? extends Comparable<? super T>> list, T key)——使用二分搜索算法在List中查找指定元素。该List必须是按照升序排列，且使用自然顺序排序。
binarySearch(List<? extends T> list, T key, Comparator<? super T> c)——使用二分搜索算法在List中查找指定元素。该List必须是按照升序排列。调用者需要提供比较器以用于在查找过程中进行比较。
frequency(Collection<?> c, Object o)——返回指定元素在Collection中出现的次数。
disjoint(Collection c1, Collection c2)——如果两个集合没有交集，返回true，否则返回false。
min(Collection<? extends T> coll)或max(Collection<? extends T> coll)——返回根据自然顺序排列的最小值或最大值。
min(Collection<? extends T> coll, Comparator<? super T> comp)或max(Collection<? extends T> coll, Comparator<? super T> comp)——返回根据指定比较器排列的最小值或最大值。

五.总结

到这里为止，关于Java集合框架的介绍就告一段落了。我们从接口、实现和算法三个层面了解了Java为我们提供的优秀的集合框架。考虑到本系列是基础教程，因此对于部分实现类的数据结构和实现细节没有进行过多地阐述。感兴趣的读者可以查阅其他资料或者尝试阅读源码，我之后也会在其他的系列中对部分重要的类的源码进行讲解，敬请期待。

Java基础教程(24)--集合

一.Java集合框架

二.接口

1.Collection接口

遍历Collection

批量操作

2.Set接口

3.List接口

位置访问

搜索

迭代器

视图操作

排序

替换

列表算法

4.Queue接口

5.Deque接口

6.Map接口

7.SortedSet接口

8.SortedMap接口

三.实现

1.Set实现

通用实现

专用实现

2.List实现

通用实现

专用实现

3.Map实现

通用实现

专用实现

并发实现

4.Queue实现

通用实现

并发实现

5.Deque实现

通用实现

并发实现

6.包装实现

同步包装器

不可变包装器

7.便捷实现

数组的列表视图

指定元素的集合

空集合或空映射

四.算法

五.总结

相关文章