ILBC 运行时（ILBC Runtime）架构

本文是 VMBC / D# 项目的系列文章，

有关 VMBC / D# ，见《我发起并创立了一个 VMBC 的子项目 D#》（以下简称《D#》） https://www.cnblogs.com/KSongKing/p/10348190.html 。

ILBC 运行时架构图如下：

为了便于讲解，图中一些位置标注了红色数字。

ILBC 运行时包含 3 个部分：调度程序、 InnerC（Byte Code to Native Code）、 GC 。

1 处，调度程序调用入口程序集的 ILBC_Main() 函数，开始执行程序。

如果入口程序集是 ILBC 程序集，就会调用 InnerC（Byte Code to Native Code）编译 ILBC 程序集为本地程序集（2 处）。

ILBC 程序集就是 ILBC Byte Code 程序集，本地程序集就是本地代码程序集。

如果入口程序集是 ILBC 程序集，就直接调用 ILBC_Main() 函数，开始执行程序。

3 处表示 A 程序集引用了 B 程序集，在调度程序加载 A 程序集的时候，会调用 A 本地程序集的 ILBC_GetAssembly() 函数，

ILBC_GetAssembly() 函数之前没有提到，现在补充上来。

ILBC_GetAssembly() 函数会返回 A 程序集引用的程序集列表，包含了这些程序集的名字。

程序集列表是一个数组，数组元素是一个字符数组的首地址，这个字符数组就是程序集的名字。

调度程序会根据程序集列表去加载列表里的程序集，

假设 A 程序集引用了 B 程序集，则程序集列表里有 B，调度程序会先把 B 加载到内存，如果 B 是本地代码程序集，则直接加载到内存，如果 B 是 ILBC 程序集，则先 JIT 编译为本地代码程序集，再加载到内存。

4 处表示 ILBC 程序集 JIT 编译为本地程序集后投入使用。

把 B 加载到内存后，调用 B 的 ILBC_GetMethodList() 函数，返回 B 的函数表首地址，另一方面，调度程序会调用 A 的 ILBC_GetMethodListList() 函数，返回 “函数表列表” 的首地址， “函数表列表” 是一个数组，数组元素是函数表首地址，所以是 “函数表的列表” 。

这样，把 B 的函数表首地址存到函数表列表中 B 的位置，加载 A 和 “依赖项” B 的过程就完成了。

如果 A 还引用了其它程序集，或者 B 引用了其它程序集，也是按照这个过程依次加载。

上面这个过程说的有点啰嗦，没事，我们先来看一下 InnerC 的架构，等下再把这个流程总结一遍。

InnerC 的架构如下：

ILBC 运行时（ILBC Runtime）架构

InnerC 分为 2 个模块：

1 InnerC to Byte Code

2 Byte Code to Native Code

InnerC to Byte Code 的职责是语法分析和类型检查，语法分析包含了语法检查。

通过语法分析，把 C 代码解析为表达式对象树，然后对表达式对象树进行类型检查，

类型检查通过后，就可以返回表达式对象树了，

表达式对象树可以直接传给 Byte Code to Native Code，

Byte Code to Native Code 负责将表达式生成为目标代码和链接（链接外部库），最终生成本地库，

这就是 AOT 编译。

表达式对象树也可以序列化，序列化得到的 byte 数组（byte [ ]）就是 Byte Code， Byte Code 保存为文件就是 ILBC 程序集。

ILBC 程序集可以读取为 byte 数组（byte [ ]）， byte 数组反序列化就是表达式对象树，表达式对象树传给 Byte Code to Native Code 编译为本地库，

这就是 JIT 编译。

C 代码是第一级中间代码， Byte Code 是第二级中间代码。

这就是 InnerC 的架构，以及 AOT 编译和 JIT 编译的原理。

我们可以把 C 中间代码文件的扩展名定义为 .ilc ，意思是 “ILBC C Code”，

把 ILBC 程序集（Byte Code 文件）的扩展名定义为 .ilb，意思是 “ILBC Byte Code” 。

本地代码程序集的扩展名遵循操作系统的规定，比如 Windows 上就是动态链接库 .dll，因为本地程序集就是操作系统定义的动态链接库。

我们接下来把 ILBC 运行时加载程序集和运行应用程序的流程总结一下：

1 调度程序加载入口程序集，如果入口程序集是本地程序集，就直接加载到内存，

如果入口程序集是 ILBC 程序集，则先 JIT 编译，把入口程序集编译为本地程序集再加载到内存。

2 调度程序调用入口程序集的 ILBC_GetAssemblyList() 函数， ILBC_GetAssemblyList() 函数返回 AssemblyList 首地址。

AssemblyList 是一个数组，数组元素是一个 char 数组（char [ ]）的首地址，表示 Assembly 的名字（文件名，不包含扩展名）。

3 调度程序用 Assembly 名字查找当前目录下的程序集，先查找本地程序集，比如 “程序集名字.dll”，如果找到，直接加载到内存，

如果找不到本地程序集，就找 ILBC 程序集，比如 “程序集名字.ilb”，如果找到，先 JIT 编译为本地程序集，再把本地程序集加载到内存。

如果 ILBC 程序集也没有找到，就报错 “找不到某某程序集。” 。

怎么把本地程序集加载到内存？这遵循操作系统提供的方式，比如 Windows 把 .dll 库加载到应用程序里的方式。

总的来说，加载程序集的流程如上，从入口程序集开始依次加载，加载完成后，调用入口程序集的 ILBC_Main() 开始执行程序。

另外， ILBC_GetMethodListList() 函数应该是 ILBC_InitializeMethodListList() ，具体逻辑不长，但讲起来烦琐，之后看 Demo 代码就清楚了。

可以看到， ILBC 运行时加载程序集会将所有引用到的程序集全部加载完成，才会开始执行程序。

这是和 .Net / C# 不同的， .Net / C# 应该是用到这个程序集的时候才会加载，用到这个程序集是指第一次调用到这个程序集里的类的时候。

实际上， .Net / C# 的动态加载的粒度可能更细，可能是 Class 这一级别的，

我们在调试 .Net / C# 程序的时候可以观察到，只有第一次用到某个 Class 的时候，这个 Class 的静态构造函数才会被调用。

从这一点上来看， .Net / C# 的动态性比 ILBC 更强，更加动态。

进一步， ILBC 加载的单位是整个程序集，而不是类（Class），如果是本地程序集，则将整个本地程序集加载到内存，

如果是 ILBC 程序集，则对整个 ILBC 程序集进行 JIT 编译，编译为本地程序集后，再把整个本地程序集加载到内存。

也因此， D# / ILBC 不提供类的静态构造函数，而是提供一个 ILBC_AssemblyLoad() 函数， ILBC 运行时会在加载程序集完成时调用 ILBC_AssemblyLoad() 函数，整个程序集所有类的初始化工作可以在 ILBC_AssemblyLoad() 里来完成。

.Net / C# 的动态性需要更加复杂的设计和实现，这不是 ILBC 的定位。

我们可以探讨一下，如果要实现 .Net / C# 的动态性，比如第一次 new 类的对象或者第一次调用类的静态方法时，加载类（如果 Assembly 未加载则先加载 Assembly 再加载 Class）并调用类的静态构造函数这个动态加载怎么实现：

我们可以写一段伪码：

简单起见，我们假设 Assembly 已经加载了，只要判断类是否已加载，若未加载则加载类。

编译器会把 new 类的对象，以及调用类的静态方法的代码处理成一段临时代码，我们称之为 “链接代码”，

假设该类是 A Class，

伪码如下：

bool ifAClassLoad = false;

if ( ! ifAClassLoad )

{

lock ( ifAClassLoad )

{

if ( ! ifAClassLoad )

{

加载 A Class ;

调用类的静态构造函数 ;

ifAClassLoad = true ;

}

new () 或者 A.静态方法() ;

按照这个代码的逻辑，第一次 new A() 或者调用 A.静态方法() 时，会判断 A Class 是否已加载，如果未加载，会有一个线程通知 CLR 加载 A Class，其它线程等待（如果有其它线程也在 new A() 或者调用 A.静态方法() 的话）， CLR 加载完成后，就执行真正的 new A() 或者 A.静态方法() ，

之后，再 new A() 或者调用 A.静态方法() 的时候，在链接代码的第一句，

if ( ! ifAClassLoad )

就可以判断出来 A Class 已经加载，于是就直接执行 new A() 或者 A.静态方法() 。

但这样的做法，每次 new A() 或者 A.静态方法() 都要有一个判断，虽然只是一个判断，但从微观上来说，也造成了性能消耗。

这样的性能消耗，应该是 “应该被优化掉的” 。

如果 .Net / C# 已经把这个判断优化掉了，那么应该用到了 “修改已经编译好的本地代码” 的操作，形象的讲，就是给 “已经编译好的本地代码” 做了个 “微创手术” 。

具体就是在第一次加载成功后， .Net CLR 会把这段 “链接代码” 替换掉，替换为 new A() 和 A.静态函数() 的代码，

在新的 new A() 和 A.静态函数() 代码中， A() 构造函数和 A.静态方法() 已经替换为 A Class 加载后的实际的函数地址。

这样，替换后的代码和访问同一个程序集中的类的代码是一样的。

性能也和访问同一个程序集中的类一样。

顺便加一句，本来链接代码中 new A() 和 A.静态函数() 的部分还有一个类似调用虚函数的查函数表的操作，也被这个替换优化掉了。

这个技术很底层， ILBC 不打算涉及这个技术，

ILBC 仍然把 C 语言和 C 编译器（InnerC）看作一个整体，不会介入 C 编译器的工作细节。

不过，从上面的讨论也可以知道，如果 ILBC 想实现和 .Net / C# 一样的 “动态特性”，比如用到 A Class 的时候才加载 A Class，如果 A Class 所在的程序集未加载则先加载程序集再加载 A Class，

如果要做到这样的动态特性的话，简单点也可以用上面的 “链接代码” 的做法，只是每次调用 new A() 构造函数和 A.静态方法() 都要多一个

if ( ! ifAClassLoad )

的判断了。

还有就是查函数表的操作也是要有的。

当然，即使不实现这个 “动态特性”，查函数表的操作也是有的。

ILBC 的动态链接就相当于调用虚函数。

不过即使用了上面 “链接代码” 的方式，也只能 “用到某个程序集的时候才加载程序集”，还不能达到 Class 的粒度，

因为上文也说了， ILBC 是把整个 ILBC 程序集编译成本地程序集的，

这是因为 ILBC 程序集是 C 语言写的， C 语言只能整个项目（程序集）一起编译，不能把里面的 .c 文件一个一个拿出来编译。

就算能把若干 .c 文件任意的拿出来编译，根据 ILBC 规范，这些单独拿出来的 .c 文件编译成的程序集里必须要提供 ILBC_GetAssemblyList()， ILBC_InitializeMethodList()， ILBC_Link() 函数，这就乱套了。因为原本的程序集已经为原本的整个项目生成了一份这些函数。

假设 A 引用 B， A 里编译好的逻辑是引用 B，现在把 B 拆成了若干个小程序集，你让 A 怎么引用？

秒客网

ILBC 运行时（ILBC Runtime）架构

相关文章

ILBC 运行时 （ILBC Runtime） 架构

相关文章

ILBC 运行时（ILBC Runtime）架构