java字节码常量池处理说明（字符串常量池）

本文目录一览：

1、Java 中的常量共享池什么意思
2、运行一个java程序的步骤是怎样的？请做详细说明！
3、java中什么是能够在计算机CPU上执行的二进制代码？
4、什么是Java字节码？
5、JAVA常量池中存储的常量是什么

Java 中的常量共享池什么意思

一直有个疑问，java中字符串池,String池,共享池是怎么回事？

好像知道什么意思，但具体又不太清楚，所以也一直没太关注。

从网上看了些资料，解释了下疑问。

在java的栈中，有共享池的概念，把一些常量会放到这个共享池中，包括字符串常量和基本类型常量。

共享的操作时在编译时由编译器完成的，可以节省内存，并提高效率。

例如语句string str = "hello", 首先在栈中创建字符串引用变量str，再看看栈中有没有“hello”，如果有就str直接指向它，没有就创建“hello”并放在栈中，然后指向它。

对于int之类的基本类型的变量也差不多都是这样的。

而对于 String str = new String("hello")，则是创建新的对象，并放在堆内存中。是在runtime的时候分配内存的。

这样做效率和节省内存方面不如String str = “hello”，但是更灵活，如果编译时不知道要创建什么样的字符串，就

只能运行时创建了。

运行一个java程序的步骤是怎样的？请做详细说明！

Java程序从源文件创建到程序运行要经过两大步骤：1、源文件由编译器编译成字节码（ByteCode）

2、字节码由java虚拟机解释运行。因为java程序既要编译同时也要经过JVM的解释运行，所以说Java被称为半解释语言（ "semi-interpreted" language）。

下面通过以下这个java程序，来说明java程序从编译到最后运行的整个流程。代码如下：

//MainApp.java

public class MainApp {

public static void main(String[] args) {

Animal animal = new Animal("Puppy");

animal.printName();

}

//Animal.java

public class Animal {

public String name;

public Animal(String name) {

this.name = name;

}

public void printName() {

System.out.println("Animal ["+name+"]");

}

第一步(编译): 创建完源文件之后，程序会先被编译为.class文件。Java编译一个类时，如果这个类所依赖的类还没有被编译，编译器就会先编译这个被依赖的类，然后引用，否则直接引用，这个有点象make。如果java编译器在指定目录下找不到该类所其依赖的类的.class文件或者.java源文件的话，编译器话报“cant find symbol”的错误。

编译后的字节码文件格式主要分为两部分：常量池和方法字节码。常量池记录的是代码出现过的所有token(类名，成员变量名等等)以及符号引用（方法引用，成员变量引用等等）；方法字节码放的是类中各个方法的字节码。下面是MainApp.class通过反汇编的结果，我们可以清楚看到.class文件的结构：

第二步（运行）：java类运行的过程大概可分为两个过程：1、类的加载 2、类的执行。需要说明的是：JVM主要在程序第一次主动使用类的时候，才会去加载该类。也就是说，JVM并不是在一开始就把一个程序就所有的类都加载到内存中，而是到不得不用的时候才把它加载进来，而且只加载一次。

下面是程序运行的详细步骤：

在编译好java程序得到MainApp.class文件后，在命令行上敲java AppMain。系统就会启动一个jvm进程，jvm进程从classpath路径中找到一个名为AppMain.class的二进制文件，将MainApp的类信息加载到运行时数据区的方法区内，这个过程叫做MainApp类的加载。

然后JVM找到AppMain的主函数入口，开始执行main函数。

main函数的第一条命令是Animal animal = new Animal("Puppy");就是让JVM创建一个Animal对象，但是这时候方法区中没有Animal类的信息，所以JVM马上加载Animal类，把Animal类的类型信息放到方法区中。

加载完Animal类之后，Java虚拟机做的第一件事情就是在堆区中为一个新的Animal实例分配内存, 然后调用构造函数初始化Animal实例，这个Animal实例持有着指向方法区的Animal类的类型信息（其中包含有方法表，java动态绑定的底层实现）的引用。

当使用animal.printName()的时候，JVM根据animal引用找到Animal对象，然后根据Animal对象持有的引用定位到方法区中Animal类的类型信息的方法表，获得printName()函数的字节码的地址。

开始运行printName()函数。

特别说明：java类中所有public和protected的实例方法都采用动态绑定机制，所有私有方法、静态方法、构造器及初始化方法clinit都是采用静态绑定机制。而使用动态绑定机制的时候会用到方法表，静态绑定时并不会用到。

java中什么是能够在计算机CPU上执行的二进制代码？

java中的JVM是能够在计算机CPU上执行的二进制代码。

java的执行过程

Java代码需要经过编译和解释两个步骤，才在能在平台上运行。首先java语言的编译器，帮java代码编译成class的字节码，之后通过java虚拟机（JVM）来解释执行。

java代码的编译

java代码是如何编译的？

首先编译的解释：把用高级程序设计语言书写的源程序，翻译成等价的计算机汇编语言或机器语言书写的目标程序的翻译程序。编译的具体过程，可以看看《编译原理》相关的书籍。

其实java的编译过程，和通常c/c++还是不同的。

java编译后的字节码文件格式主要分为两部分：常量池和方法字节码。常量池记录的是代码出现过的所有token(类名，成员变量名等等)以及符号引用（方法引用，成员变量引用等等）；方法字节码放的是类中各个方法的字节码。

Java编译器却不将对变量和方法的引用编译为数值引用，也不确定程序执行过程中的内存布局，而是将些符号引用信息保留在字节码中，由解释器在运行过程中创立内存布局，然后再通过查表来确定一个方法所在的地址，这样就有效地保证了java的可移植性和安全性。

c/c++的编译，当C编译器编译生成一个对象的代码时，该代码是为在某一特定硬件平台运行而生成的。因此在编译过程中，编译程序通过查表将所有对符号的引用转换为特定的内存偏移量，以保证程序运行。

java虚拟机（JVM）

简单的可以这样理解它的功能：就是将java编译之后的字节码，解释成cpu能够执行的二进制代码。

JVM是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。JVM有自己完善的硬件架构，如处理器、堆栈、寄存器等，还具有相应的指令系统。JVM 的主要工作是解释自己的指令集（即字节码）并映射到本地的 CPU 的指令集或 OS 的系统调用。Java语言是跨平台运行的，其实就是不同的操作系统，使用不同的JVM映射规则，让其与操作系统无关，完成了跨平台性。JVM 对上层的 Java 源文件是不关心的，它关注的只是由源文件生成的类文件（ class file）。类文件的组成包括 JVM 指令集，符号表以及一些补助信息。

java虚拟机工作的原理，可以自己找一下网上的资料。大家还需要思考的问题，jvm的内存、jvm的垃圾回收（GC）、Android的朋友还要区分（Dalvik 和标准 Java 虚拟机JVM）的区别。

总结：

java代码编译之后，可以直接运行在Windows或者其它装有JVM虚拟机的系统下。而C或C++直接编译成与机器和操作系统相关的代码。所以C语言编译的程序没有跨平台性，就算没有使用到操作系统相关的API，在不同的系统下也必须重新编译才能运行。

什么是Java字节码？

它是程序的一种低级表示，可以运行于Java虚拟机上。将程序抽象成字节码可以保证Java程序在各种设备上的运行

Java号称是一门“一次编译到处运行”的语言，从我们写的java文件到通过编译器编译成java字节码文件（.class文件），这个过程是java编译过程；而我们的java虚拟机执行的就是字节码文件。不论该字节码文件来自何方，由哪种编译器编译，甚至是手写字节码文件，只要符合java虚拟机的规范，那么它就能够执行该字节码文件。

JAVA程序的运行

因为Java具有跨平台特性，为了实现这个特性Java执行在一台虚拟机上，这台虚拟机也就是JVM，Java通过JVM屏蔽了不同平台之间的差异，从而做到一次编译到处执行。JVM位于Java编译器和OS平台之间，Java编译器只需面向JVM，生成JVM能理解的代码，这个代码即字节码，JVM再将字节码翻译成真实机器所能理解的二进制机器码。

字节码是怎么产生的？

我们所编写的程序都是.java格式，通常在执行的时候也许点击一下eclipse的运行键就可以在控制台看到运行结果，但是也可以更酷一些，如果你装了JDK，那就可以直接在以命令行的方式编译运行你的.java文件，编译后会形成.class文件，这个.class文件即字节码。

字节码怎么解读？

上图是编译好的字节码文件，即一堆16进制的字节,如果使用IDE去打开，也许看到的是已经被反编译的我们所熟悉的java代码，但这才是纯正的字节码

这里只介绍字节码由哪些部分组成, 具体的意思自行百度或者看文尾的连接, 有较为详细的讲解

上图即字节码文件的组成部分, Class文件的结构不像XML等描述语言那样松散自由。由于它没有任何分隔符号，

所以，以上数据项无论是顺序还是数量都是被严格限定的。哪个字节代表什么含义，长度是多少，先后顺序如何，都不允许改变, 如上图左侧即每一部分规定的长度

魔数(Magic Number)

魔数是用来区分文件类型的一种标志，一般都是用文件的前几个字节来表示。

比如0XCAFE BABE表示的是class文件，那么有人会问，文件类型可以通过文件名后缀来判断啊？是的，但是文件名是可以修改的（包括后缀），那么为了保证文件的安全性，将文件类型写在文件内部来保证不被篡改。

至于为什么是CAFE BABE估计大家也能猜到, 程序员与咖啡的不解之缘

版本号(Version)

版本号含主版本号和次版本号，都是各占2个字节。在此Demo种为0X0000 0033。其中前面的0000是次版本号，后面的0033是主版本号。通过进制转换得到的是次版本号为0，主版本号为51。高版本的JDK能向下兼容以前版本的Class文件，但不能运行以后版本的Class文件，即使文件格式未发生任何变化. 这就是target参数的用处，可以在使用JDK 1.7编译时指定-target 1.5

常量池(Constant Pool)

常量池是Class文件中的资源仓库, 量池中主要存储2大类常量：字面量和符号引用。字面量如文本字符串，java中声明为final的常量值等等，而符号引用如类和接口的全局限定名，字段的名称和描述符，方法的名称和描述符。常量池是一个表结构，在表的内容前有一个类型的计数器，表示常量池的长度

上面的表中描述了11中数据类型的结构，其实在jdk1.7之后又增加了3种（CONSTANT_MethodHandle_info,CONSTANT_MethodType_info以及CONSTANT_InvokeDynamic_info)。这样算起来一共是14种

访问标志(Access_Flag)

访问标志信息包括该Class文件是类还是接口，是否被定义成public，是否是abstract，如果是类，是否被声明成final。通过上面的源代码，我们知道该文件是类并且是public。

0x 00 21：是0×0020和0×0001的并集。其中0×0020这个标志值涉及到字节码指令

类索引(This Class Name)

类索引用于确定类的全限定名

0×00 03 表示引用第3个常量，同时第3个常量引用第19个常量，查找得”com/demo/Demo”。#3.#19

父类索引(Super Class Name)

0×00 04 同理：#4.#20(java/lang/Object)

接口索引(Interfaces)

通过上边字节码图可以看到，这个接口有2+n个字节，前两个字节表示的是接口数量，后面跟着就是接口的表。我们这个类没有任何接口，所以应该是0000。果不其然，查找字节码文件得到的就是0000。

字段表集合(fields)

字段表用于描述类和接口中声明的变量。这里的字段包含了类级别变量以及实例变量，但是不包括方法内部声明的局部变量。接下来就是2+n个字段属性。我们只有一个属性a，所以应该是0001。查找文件果不其然是0001。

该区域含有字段的访问标志, 访问权限, 字段的名称索引, 字段的描述符索引, 属性表

描述符的作用就是用来描述字段的数据类型、方法的参数列表和返回值。而属性表就是为字段表和方法表提供额外信息的表结构。对于字段来说，此处如果将字段声明为一个static final msg = "aaa"的常量，则字段后就会跟着一个属性表，其中存在一项名为ConstantValue，指向常量池中的一个常量，值为的"aaa"。

方法(methods)

包含访问标志表, 方法名索引 , 方法描述符索引, 属性表数量,等

Attribute

0×0001 ：同样的，表示有1个Attributes了。

0x000f : #15(“SourceFile”)

0×0000 0002 attribute_length=2

0×0010 : sourcefile_index = #16(“Demo.java”)

SourceFile属性用来记录生成该Class文件的源码文件名称。

JAVA常量池中存储的常量是什么

我当初也存在这样一个疑问，下面我把当初所搜集的一些资料以及自己的理解贴出来给你看看(比较多，需要耐心点看，呵呵)：

理解Java常量池

JVM运行时数据区的内存模型由五部分组成：

【1】方法区

【2】堆

【3】JAVA栈

【4】PC寄存器

【5】本地方法栈

对于String s = "haha" ,它的虚拟机指令：

0: ldc #16; //String haha

2: astore_1

3: return

对于上面虚拟机指令，其各自的指令流程在《深入JAVA虚拟机》这样描述到(结合上面实例)：

ldc指令格式：ldc,index

ldc指令过程：

要执行ldc指令，JVM首先查找index所指定的常量池入口，在index指向的常量池入口，JVM将会查找CONSTANT_Integer_info，CONSTANT_Float_info和CONSTANT_String_info入口。如果还没有这些入口，JVM会解析它们。而对于上面的hahaJVM会找到CONSTANT_String_info入口，同时，将把指向被拘留String对象（由解析该入口的进程产生）的引用压入操作数栈。

astore_1指令格式：astore_1

astore_1指令过程：

要执行astore_1指令，JVM从操作数栈顶部弹出一个引用类型或者returnAddress类型值，然后将该值存入由索引1指定的局部变量中,即将引用类型或者returnAddress类型值存入局部变量1。

return 指令的过程：

从方法中返回，返回值为void。

谈一下我个人理解：

从上面的ldc指令的执行过程可以得出：s的值是来自被拘留String对象（由解析该入口的进程产生）的引用，即可以理解为是从被拘留String对象的引用复制而来的，故我个人的理解是s的值是存在栈当中。上面是对于s值得分析，接着是对于"haha"值的分析,我们知道，对于String s = "haha" 其中"haha"值在JAVA程序编译期就确定下来了的。简单一点说，就是haha的值在程序编译成class文件后，就在class文件中生成了（大家可以用UE编辑器或其它文本编辑工具在打开class文件后的字节码文件中看到这个haha值）。执行JAVA程序的过程中，第一步是class文件生成，然后被JVM装载到内存执行。那么JVM装载这个class到内存中，其中的haha这个值，在内存中是怎么为其开辟空间并存储在哪个区域中呢？

说到这里，我们不妨先来了解一下JVM常量池这个结构，《深入JAVA虚拟机》书中有这样的描述：

常量池

虚拟机必须为每个被装载的类型维护一个常量池。常量池就是该类型所用到常量的一个有序集和，包括直接常量（string,integer和floating point常量）和对其他类型，字段和方法的符号引用。对于String常量，它的值是在常量池中的。而JVM中的常量池在内存当中是以表的形式存在的，对于String类型，有一张固定长度的CONSTANT_String_info表用来存储文字字符串值，注意：该表只存储文字字符串值，不存储符号引用。说到这里，对常量池中的字符串值的存储位置应该有一个比较明了的理解了。

在介绍完JVM常量池的概念后，接着谈开始提到的"haha"的值的内存分布的位置。对于haha的值，实际上是在class文件被JVM装载到内存当中并被引擎在解析ldc指令并执行ldc指令之前，JVM就已经为haha这个字符串在常量池的CONSTANT_String_info表中分配了空间来存储haha这个值。既然haha这个字符串常量存储在常量池中，根据《深入JAVA虚拟机》书中描述：常量池是属于类型信息的一部分，类型信息也就是每一个被转载的类型，这个类型反映到JVM内存模型中是对应存在于JVM内存模型的方法区中，也就是这个类型信息中的常量池概念是存在于在方法区中，而方法区是在JVM内存模型中的堆中由JVM来分配的。所以，haha的值是应该是存在堆空间中的。

而对于String s = new String("haha") ,它的JVM指令：

0: new #16; //class String

3: dup

4: ldc #18; //String haha

6: invokespecial #20; //Method java/lang/String."":(Ljava/lang/String;)V

9: astore_1

10: return

对于上面虚拟机指令，其各自的指令流程在《深入JAVA虚拟机》这样描述到(结合上面实例)：

new指令格式：new indexbyte1,indexbyte2

new指令过程：

要执行new指令，Jvm通过计算(indextype18)|indextype2生成一个指向常量池的无符号16位索引。然后JVM根据计算出的索引查找常量池入口。该索引所指向的常量池入口必须为CONSTANT_Class_info。如果该入口尚不存在，那么JVM将解析这个常量池入口，该入口类型必须是类。JVM从堆中为新对象映像分配足够大的空间，并将对象的实例变量设为默认值。最后JVM将指向新对象的引用objectref压入操作数栈。

dup指令格式：dup

dup指令过程：

要执行dup指令，JVM复制了操作数栈顶部一个字长的内容，然后再将复制内容压入栈。本指令能够从操作数栈顶部复制任何单位字长的值。但绝对不要使用它来复制操作数栈顶部任何两个字长(long型或double型)中的一个字长。上面例中，即复制引用objectref，这时在操作数栈存在2个引用。

ldc指令格式：ldc,index

ldc指令过程：

要执行ldc指令，JVM首先查找index所指定的常量池入口，在index指向的常量池入口，JVM将会查找CONSTANT_Integer_info，CONSTANT_Float_info和CONSTANT_String_info入口。如果还没有这些入口，JVM会解析它们。而对于上面的haha,JVM会找到CONSTANT_String_info入口，同时，将把指向被拘留String对象（由解析该入口的进程产生）的引用压入操作数栈。

invokespecial指令格式：invokespecial,indextype1,indextype2

invokespecial指令过程：对于该类而言，该指令是用来进行实例初始化方法的调用。鉴于该指令篇幅，具体可以查阅《深入JAVA虚拟机》中描述。上面例子中，即通过其中一个引用调用String类的构造器，初始化对象实例，让另一个相同的引用指向这个被初始化的对象实例，然后前一个引用弹出操作数栈。

astore_1指令格式：astore_1

astore_1指令过程：

return 指令的过程:

从方法中返回，返回值为void。

通过上面6个指令，可以看出，String s = new String("haha");中的haha存储在堆空间中，而s则是在操作数栈中。

上面是对s和haha值的内存情况的分析和理解；那对于String s = new String("haha");语句,到底创建了几个对象呢?

我的理解：这里"haha"本身就是常量池中的一个对象，而在运行时执行new String()时，将常量池中的对象复制一份放到堆中，并且把堆中的这个对象的引用交给s持有。所以这条语句就创建了2个String对象。

下面是一些String相关的常见问题：

String中的final用法和理解

final StringBuffer a = new StringBuffer("111");

final StringBuffer b = new StringBuffer("222");

a=b;//此句编译不通过

final StringBuffer a = new StringBuffer("111");

a.append("222");//编译通过

可见，final只对引用的"值"(即内存地址)有效，它迫使引用只能指向初始指向的那个对象，改变它的指向会导致编译期错误。至于它所指向的对象的变化，final是不负责的。

String 常量池问题的几个例子

下面是几个常见例子的比较分析和理解：

[1]

String a = "a1";

String b = "a" + 1;

System.out.println((a == b)); //result = true

String a = "atrue";

String b = "a" + "true";

System.out.println((a == b)); //result = true

String a = "a3.4";

String b = "a" + 3.4;

System.out.println((a == b)); //result = true

分析：JVM对于字符串常量的"+"号连接，将程序编译期，JVM就将常量字符串的"+"连接优化为连接后的值，拿"a" + 1来说，经编译器优化后在class中就已经是a1。在编译期其字符串常量的值就确定下来，故上面程序最终的结果都为true。

[2]

String a = "ab";

String bb = "b";

String b = "a" + bb;

System.out.println((a == b)); //result = false

分析：JVM对于字符串引用，由于在字符串的"+"连接中，有字符串引用存在，而引用的值在程序编译期是无法确定的，即"a" + bb无法被编译器优化，只有在程序运行期来动态分配并将连接后的新地址赋给b。所以上面程序的结果也就为false。

[3]

String a = "ab";

final String bb = "b";

String b = "a" + bb;

System.out.println((a == b)); //result = true

分析：和[3]中唯一不同的是bb字符串加了final修饰，对于final修饰的变量，它在编译时被解析为常量值的一个本地拷贝存储到自己的常量池中或嵌入到它的字节码流中。所以此时的"a" + bb和"a" + "b"效果是一样的。故上面程序的结果为true。

[4]

String a = "ab";

final String bb = getBB();

String b = "a" + bb;

System.out.println((a == b)); //result = false

private static String getBB() {

return "b";

}

分析：JVM对于字符串引用bb，它的值在编译期无法确定，只有在程序运行期调用方法后，将方法的返回值和"a"来动态连接并分配地址为b，故上面程序的结果为false。

通过上面4个例子可以得出得知：

String s = "a" + "b" + "c";

就等价于String s = "abc";

String a = "a";

String b = "b";

String c = "c";

String s = a + b + c;

这个就不一样了，最终结果等于：

StringBuffer temp = new StringBuffer();

temp.append(a).append(b).append(c);

String s = temp.toString();

由上面的分析结果，可就不难推断出String 采用连接运算符（+）效率低下原因分析，形如这样的代码：

public class Test {

public static void main(String args[]) {

String s = null;

for(int i = 0; i 100; i++) {

s += "a";

}

每做一次 + 就产生个StringBuilder对象，然后append后就扔掉。下次循环再到达时重新产生个StringBuilder对象，然后 append 字符串，如此循环直至结束。如果我们直接采用 StringBuilder 对象进行 append 的话，我们可以节省 N - 1 次创建和销毁对象的时间。所以对于在循环中要进行字符串连接的应用，一般都是用StringBuffer或StringBulider对象来进行append操作。

String对象的intern方法理解和分析：

public class Test4 {

private static String a = "ab";

public static void main(String[] args){

String s1 = "a";

String s2 = "b";

String s = s1 + s2;

System.out.println(s == a);//false

System.out.println(s.intern() == a);//true

}

这里用到Java里面是一个常量池的问题。对于s1+s2操作，其实是在堆里面重新创建了一个新的对象,s保存的是这个新对象在堆空间的的内容，所以s与a的值是不相等的。而当调用s.intern()方法，却可以返回s在常量池中的地址值，因为a的值存储在常量池中，故s.intern和a的值相等

java字节码常量池处理说明（字符串 常量池）

本文目录一览：

Java 中的 常量共享池 什么意思

运行一个java程序的步骤是怎样的？请做详细说明！

java中什么是能够在计算机CPU上执行的二进制代码？

什么是Java字节码？

JAVA常量池中存储的常量是什么

java字节码常量池处理说明（字符串常量池）

Java 中的常量共享池什么意思