这听起来像是个非常高大上的名字,上学的时候我们学过的编译原理或者编译技术实际上是在讲如何将高级程序语言如C++编译为计算机可以理解的汇编语言,这里说的编译原理只是想说明在.NET的世界里编译这件事儿和传统的C++有什么区别和联系。先来简单的说一下传统的做法,在C++里,但你编译一个应用程序比如一个EXE文件或者是DLL(注意这里的DLL叫做动态链接库,只是到了.NET中才才被叫做程序集)时,实际上编译器做的事情就是直接将你写的C++代码编译为汇编语言,然后以二进制的形式存放在EXE或者DLL文件中,当被执行的时候,CPU就可以直接读到汇编代码开始运行了。当然说起来简单,里面还是有非常多的细节问题,我们需要关注的重点是,C++编译器做到的事情是将高级语言直接编译为汇编语言。
接下来,我们来看一看在.NET中我们如何处理。在说明之前,我们来回顾一下一个非常经典的说法,你看任何一本介绍.NET的书都会在开篇宣称.NET是跨平台跨语言的高级运行时,但是.NET是如何做到的呢?我们引入一个非常关键的概念叫做Intermediate Language简称IL,中文叫做中间语言。
当你写了一段程序(假设是一个Console Application EXE的项目),在Visual Studio中点击F5编译并运行这个按钮的时候,实际上都发生了些什么呢?
- 首先是编译,与C++类似,.NET编译器也是将高级语言编译,但是输出并不是汇编语言,而是IL中间语言。这个所谓的IL是个什么东西呢?你可以理解为,这是和C#类似的一种语言,程序员可以很容易的看懂甚至直接用Visual Studio就可以写。然后这些中间语言会以二进制的形式存放在EXE文件中。
- 接下来是运行。运行的时候.NET Runtime会加载EXE中的必要信息以及IL,这时你可能会问,C++运行的时候,CPU可以直接运行汇编,但是CPU能认识IL么?答案是否定的,CPU会IL一无所知。.NET运行时会进行二次编译,将IL编译为真正的汇编语言,然后CPU执行。
注意,.NET的程序要运行,实际上是需要两次编译的,一次是在开发的时候,另外一次则是在运行的时候。那么这样做实际上解决了.NET跨语言跨平台这个问题。.
NET上会很多种语言,比如C#,VB.NET, C++.NET, F#,这些语言开发出来的程序,只要机器上装了.NET Framework就都可以运行,这是因为不同的语言在第一次(开发过程)编译的时候都会被编译为IL,也就是说,同样的一个功能,用C#写出来和F#写出来编译出来的IL是一样的(当然编译器可能根据不同的高级语言特点有所优化,但是基本一致)。这样做的好处是什么呢?很简单,比如你用C#写了一个feature,我用F#加载你的DLL就可以使用你的程序集了。这看起来没什么,但是你能想想一下如果C++可以非常简单的调用Java的类库,这个世界是不是就该疯狂了?再来是跨平台,当你的.NET程序运行的时候,.NET运行时负责将IL编译为汇编语言,在运行编译时,.NET可以根据当前运行的操作系统以及CPU构架的不同生成完全不一样的汇编语言。但是C++就做不到,你用一种编译器编译出来的东西只能运行在某个特定的平台上,比如VC编译器编译出来的只能跑在windows上,在linux上就完蛋了。这是.NET非常重要的一个框架技术核心,虽然现在被应用的并不广泛,因为除了C#和Windows平台意外,.NET是很少被使用的。但是如果未来微软将.NET技术推广到更多领域,这种跨平台跨语言的框架核心就能显示出价值了。看一下下面这个图。
接下来我们来看几个非常重要的相关的面试问题
首先,二次编译带来的性能损失。这很容易理解,与C++相比,运行.NET程序在运行的时候多了一次编译,这肯定是要慢的。.NET runtime做了一些性能的优化,即由IL编译过的汇编语言会被缓存起来,当第二次再遇到同样的IL的时候,会直接从内存中加载,而不再被编译。这也就是.NET程序会被指责第一次运行极慢无比的一个重要原因。比如我们来看看下面这段code...
Console.WriteLine("Hello world"); // first time, compile this function
Console.WriteLine("Hello world again"); // second time, load from cache
当然为了提高性能,.NET编译器允许将高级语言如C#直接编译为汇编语言,但是并不推荐这样做,这样的会,所有跨平台,跨语言的特性就将消失,这种做法适用于对性能要求极高的应用程序。
第二,反编译的故事。所有.NET的DLL都是中间语言组成的,所以,你可以用反编译器加载DLL,由中间语言反编译为C#以此看到其他程序集的源代码。当然.NET提供了加密保护机制,当你编译为DLL的时候可以加入扰码,使反编译器无法理解IL。
第三,这是反射的基础。你肯定知道反射的故事,在运行时可以动态的加载某个类型中所有的property, field等等,.NET就是通过分析中间语言做到这一点的。在运行时,.NET runtime会加载IL并理解所有的类型定义。
好了,这就是所有.NET编译的基本故事了,虽然说和你写code没什么太大关系吧,作为.NET的核心技术框架,这个还是要了解一下的。That's much for today.