android,js垃圾回收机制的理解

Android的垃圾回收机制最近详细调查了Android的垃圾回收机制，发现在这个领域很多原本数量就很少的可怜的技术文章已经过时了。我没办法，查了很多资料，现在我把我知道的东西汇总起来，希望对你有帮助。如果有错误的话请在评论区指出来。

前言Android当前使用的虚拟机名为Android Runtime，简称Art (本文后面将Android虚拟机称为Art )。 Art的一大作用是负责垃圾收集。

在说明Art的垃圾回收机制之前，需要知道Art如何将对象判定为垃圾。

目前主流有两种判断算法，引用计数方法和可达性分析算法。 Art采用了第二种算法。引用计数方法不是本文的重点，以下只介绍可达性分析算法。

以下内容是从《深入理解Java虚拟机的介绍》开始切割的。

“现在主流的商用程序语言(Java，C#，追溯到前面提到的旧Lisp )的内存管理子系统都通过可达性分析(Reachability Analysis )算法来确定对象是否存在。该算法的基本思想是以称为“GC Roots”的一系列根对象作为起点节点集，根据参照关系从这些节点向下检索。搜索过程经过的路径被称为“参考链”，其表示从一个对象到GC Roots没有任何参考链，或者在图例中从GC Roots到该对象，如下图所示object 7相互关联，但无法到达GC Roots，因此被认为是可复用对象。 ”

在图像源：《深入理解Java虚拟机》Java技术体系中，关于可以固定作为GC Roots对象的问题，由于不是本文的重点，因此在此不再详细描述，感兴趣的伙伴可以自己调查。

在理解了Art是如何将对象定义为垃圾之后，让我们来看看它是如何清理垃圾的。

常见的垃圾处理算法有三种：标记-清除算法、标记-拷贝算法和标记-整理算法。

与Android上一代虚拟机(dal vik )只采用一种算法不同，Art采用了两种算法：标记复制算法和标记清理算法。以下简要介绍了标记复制方法。

以下内容是从《深入理解Java虚拟机的介绍》开始切割的。

“标记-复制算法经常被称为复制算法。为了解决标签清理算法面对大量可复用对象时运行效率低下的问题，1969年Fenichel提出了一种称为“半复制”(Semispace Copying )的垃圾回收算法这将可用内存按容量划分为大小相同的两个块，每次只使用其中一个。如果此块中的内存用尽，请将仍然存在的对象复制到另一个块中，并一次清理已使用的内存空间。如果内存中多数对象都是存活的，这种算法将会产生大量的内存间复制的开销虽然可以这样简单有效地执行，但其缺点也很明显。这样的复制回收算法的代价是将可用内存减少一半。太多空间浪费了。标记-算法的执行步骤如下图所示。 ”

标签复制算法在图像源：《深入理解Java虚拟机》 Art中的具体实现，在前面引用的内容中，作者发现，当内存中的大部分对象都存在时，标签复制算法会产生大量的内存间复制开销(原文粗体部分) 这是因为该算法将内存区域分为2个区域。这将复制大多数幸存者，只清理小部分垃圾。这就像在家打扫一样，为了一点灰尘，把没有灰尘的另一边的所有家具都搬走后再打扫，是一种非常昂贵的垃圾清理方法。

因此，针对这种情况，Art采用了该算法的优化版本，将内存划分为多个区域。官方称之为Region。一个区域的大小为256KB，如下图所示。

图片来源：谷歌开发者会议这种做法的明显好处如下：

1 .某个区域没有垃圾的时候，不打扫垃圾也可以。

2 .因为一个区域只有一两个垃圾，打扫垃圾的话，成本也不太高。因为一个区域的大小为256KB，所以本来保存的对象就很少。为了一两个垃圾而复制三四个对象还是可以接受的。这和在家打扫的时候，为了打扫椅子下面的垃圾，把椅子摘下来再打扫一样可以接受。

必须注意地区命名规则，因为Evacuated这个词很少被翻译，为了避免我个人对这个词的翻译影响读者的理解，后来在解释Art的地区命名规则时也使用了Evacuated这个词，读者基于自己的理解(PS :安全疏散；避难；排泄； (离开家等)的意思，语义来自词典的意思) )

1 .如果某个区域有垃圾且需要被Evacuated，Art会将该区域命名为Evacuated Region。

2 .当某个区域没有垃圾且不需要被Evacuated时，Art

则将该区域命名为Unevacuated Region。

3.当一个区域没有存储对象的时候，Art则将该区域命名为Unused Region。

4.当一个区域原先为Unused Region，但是要作为其它Evacuated Region中存活对象复制目的地的时候，Art则将该区域命名为Evacuation Region。(存活对象即那些没有被Art判定为垃圾的对象，下同)

第一到第三个命名规则结合图片应该很好理解，这里就不再赘述，这里我再花点笔墨简单介绍下Evacuation Region。

举个例子，假设有两个区域，存储了对象的区域1和没有存储对象的区域2，Art在使用可达性分析算法后，发现区域1有垃圾，将区域1命名为Evacuated Region，但区域1里面还有存活对象，由于区域2没有存储对象，Art决定将这些存活对象要复制到区域2，那么此时区域2就会被Art命名为Evacuation Region。

对象着色规则

细心的读者可能会发现，上图中的对象颜色并不都一样，深绿色是来标明老年代中的存活对象，浅绿色是来标明新生代中的存活对象，红色是来标明待清理的垃圾，此外，老年代和新生代都聚集在各自的区域，并没有出现老年代和新生代混合在一个区域的情况，这样做是有原因的。

新生代和老年代都是分代收集理论中的概念，下面再次引用《深入理解Java虚拟机》的内容来简单介绍下分代收集理论。

“当前商业虚拟机的垃圾收集器，大多数都遵循了“分代收集”（Generational Collection）的理论进行设计，分代收集名为理论，实质是一套符合大多数程序运行实际情况的经验法则，它建立在两个分代假说之上：

1）弱分代假说（Weak Generational Hypothesis）：绝大多数对象都是朝生夕灭的。

2）强分代假说（Strong Generational Hypothesis）：熬过越多次垃圾收集过程的对象就越难以消亡。

这两个分代假说共同奠定了多款常用的垃圾收集器的一致的设计原则：收集器应该将Java堆划分出不同的区域，然后将回收对象依据其年龄（年龄即对象熬过垃圾收集过程的次数）分配到不同的区域之中存储。显而易见，如果一个区域中大多数对象都是朝生夕灭，难以熬过垃圾收集过程的话，那么把它们集中放在一起，每次回收时只关注如何保留少量存活而不是去标记那些大量将要被回收的对象，就能以较低代价回收到大量的空间；如果剩下的都是难以消亡的对象，那把它们集中放在一块，虚拟机便可以使用较低的频率来回收这个区域，这就同时兼顾了垃圾收集的时间开销和内存的空间有效利用。

在Java堆划分出不同的区域之后，垃圾收集器才可以每次只回收其中某一个或者某些部分的区域 ——因而才有了“Minor GC”“Major GC”“Full GC”这样的回收类型的划分；也才能够针对不同的区域安排与里面存储对象存亡特征相匹配的垃圾收集算法——因而发展出了“标记-复制算法”“标记-清除算法”“标记-整理算法”等针对性的垃圾收集算法。这里笔者提前提及了一些新的名词，它们都是本章的重要角色，稍后都会逐一登场，现在读者只需要知道，这一切的出现都始于分代收集理论。

…

把分代收集理论具体放到现在的商用Java虚拟机里，设计者一般至少会把Java堆划分为新生代（Young Generation）和老年代（Old Generation）两个区域。魁梧的夏天，在新生代中，每次垃圾收集时都发现有大批对象死去，而每次回收后存活的少量对象，将会逐步晋升到老年代中存放。”

同样地，Art也采用了这种分代收集理论，分为Major GC和Full GC（GC为Garbage Collection的简称），在Minor GC中只对新生代进行可达性算法分析，在Full GC中才对新生代和老年代一起进行可达性算法分析。

分代收集理论存在的问题

把对象单纯分为新生代和老年代还存在着一个问题，老年代可能持有新生代的引用，而在Minor GC中Art只对新生代进行可达性算法分析，这样可能会导致只被老生代持有的新生代被Art误判为垃圾，举一个栗子，假设有一个老年代X持有了新生代Y的引用，且Y的引用只被X所持有，也就是说，只存在由X出发到Y的路径，那么Art在Minor GC由于不对X进行可达性算法分析，会判定Y不可达，从而误判Y为垃圾，

这就是所谓的跨代引用假说，因此，为了解决这问题，Art引入了Remember Set来记录老年代对新生代的引用。

下面我继续引用《深入理解Java虚拟机》来对跨代引用假说和Remember Set进行介绍。

“跨代引用假说（Intergenerational Reference Hypothesis）：跨代引用相对于同代引用来说仅占极少数。

这其实是可根据前两条假说逻辑推理得出的隐含推论：存在互相引用关系的两个对象，是应该倾向于同时生存或者同时消亡的。举个例子，如果某个新生代对象存在跨代引用，由于老年代对象难以消亡，该引用会使得新生代对象在收集时同样得以存活，进而在年龄增长之后晋升到老年代中，这时跨代引用也随即被消除了。

依据这条假说，我们就不应再为了少量的跨代引用去扫描整个老年代，也不必浪费空间专门记录每一个对象是否存在及存在哪些跨代引用，只需在新生代上建立一个全局的数据结构（该结构被称为“记忆集”，Remembered Set），这个结构把老年代划分成若干小块，标识出老年代的哪一块内存会存在跨代引用。此后当发生Minor GC时，只有包含了跨代引用的小块内存里的对象才会被加入到GC Roots进行扫描。虽然这种方法需要在对象改变引用关系（如将自己或者某个属性赋值）时维护记录数据的正确性，会增加一些运行时的开销，但比起收集时扫描整个老年代来说仍然是划算的。 ”

Art的Full GC

准确来说，Art采用的并不是Full GC算法，因为根据谷歌的说法，Art采用的是经过优化的Full GC算法，全称叫2-phase full-heap GC cycles,但后文为了介绍方便，仍采用Full GC的说法，稍微有点英文基础的读者看到算法的全称就应该知道，该算法分为两阶段，如图所示，第一阶段使用可达性算法分析来判断对象是否存活，第二阶段就是根据区域中的存活对象数量判断是否需要进行Evacuated。（ps：Full GC未优化的版本就包含垃圾判断和垃圾回收）

图片来源:谷歌开发者大会

如下图所示，Full GC判断一个区域需要Evacuated的标准是该区域的存活对象数量小于三个。

图片来源:谷歌开发者大会

下图是Full GC之后的内存情况。

Art的垃圾回收周期

介绍完Minor GC和Full GC，我们再来看一下Art的垃圾回收周期，如下图所示，Art一个垃圾回收周期是由一个Full GC的开始到下一个Full GC的开始，但一个周期内Minor GC的数量是不确定的，唯一确定的是两个Full GC之间的时间间隔。

图片来源:谷歌开发者大会

上图还是比较好理解的，但有些地方还是需要再解释下。

1.Q是Android的版本号，也就是Android 10，由于Android 10之后谷歌并没有对Art进行大改，所以Android 10之后的版本还是采用了Android 10的垃圾回收算法。

2.Young-gen GC cycles直译过来就是新生代垃圾回收周期，也就是我们上面所说的Minor GC。

Art垃圾回收算法的并发性

注意上面所介绍的垃圾回收算法具有并发性，也就是说垃圾回收线程是与主线程并发进行的，在一个垃圾回收周期只有一次短暂的GC暂停，时间为几毫秒，所以用户大多数情况下是无法感知的，并不会出现”stop the world“现象。

读取屏障是Art垃圾回收得以实现并发性的关键，读取屏障会拦截来自堆的引用读取。（这一部分安卓官网也没详细介绍，欢迎了解的读者在下面补充）

Art另一种垃圾回收算法

前面说过Art采用了两种垃圾回收算法。

当应用仍在前台运行，与用户进行交互的时候，Art采用的就是上面所介绍的算法。

而当应用在后台运行时，于用户不可见的时候，Art采用的就是另一种算法，下面简单引用安卓官网的内容进行简单介绍。

“ART 仍然支持的另一个 GC 方案是 CMS(并发标记清除)。此 GC 方案还支持压缩，但不是以并发方式。在应用进入后台之前，它会避免执行压缩，应用进入后台后，它会暂停应用线程以执行压缩。如果对象分配因碎片而失败，也必须执行压缩操作。在这种情况下，应用可能会在一段时间内没有响应。”

参考资料

1.《深入理解Java虚拟机》-dbdzdj

2.Understanding Android Runtime (ART) for faster apps (Google I/O’19)

3.安卓官网