第二人生的源码分析(104)脚本的词法分析(2)

时间:2021-09-17 09:21:23
接着上一次,再来分析 flex文件的下一部份:规则部份。它们由一连串带有代码的正则表达式组成,当匹配相对应的正则表达式时,这些代码就会被运行。下面就一段规则的代码:
#001 %%
这行表示规则代码开始。
 
#002 "//"                    { gInternalLine++; gInternalColumn = 0; comment(); }
这里使用“ //”来表注释一行代码。
 
#003 
#004 "integer"           { count(); return(INTEGER); }
这里识别关键字 integer为整数据处理。
 
#005 "float"                 { count(); return(FLOAT_TYPE); }
#006 "string"            { count(); return(STRING); }
#007 "key"               { count(); return(LLKEY); }
#008 "vector"            { count(); return(VECTOR); }
#009 "quaternion"        { count(); return(QUATERNION); }
#010 "rotation"          { count(); return(QUATERNION); }
#011 "list"              { count(); return(LIST); }
上面这段依次是识别浮点数 float,字符串string,键key,数组vector,四元数quaternion,旋转rotation,列表list。可以看到每识别一个关键字出来就返回相应的标识ID,这样方便后面的语法分析和语义分析,以及代码的生成。
 
其它好多的规则都是跟上面一样的,下面再来分析一些比较特别的规则,如下:
#001 0[xX]{H}+           { count(); yylval.ival = strtoul(yytext, NULL, 0); return(INTEGER_CONSTANT); }
#002 {N}+                { count(); yylval.ival = strtoul(yytext, NULL, 10); return(INTEGER_CONSTANT); }
这两行就是识别数字串,比如第一行是识别 16进制的数字串,例如0x12,0Xa233。第二行是识别一般的10进制的数字。
 
下面这行是识文件结束的状态:
#001 "EOF"                   { yylval.sval = new char[UUID_STR_LENGTH]; strcpy(yylval.sval, "/n/n/n"); return(STRING_CONSTANT);
#002 }
 
下面是一些比较复杂的规则:
#001 
#002 {L}({L}|{N})*       { count(); yylval.sval = new char[strlen(yytext) + 1]; strcpy(yylval.sval, yytext); return(IDENTIFIER); }
这行是识别脚本定义的变量标识符。
 
#003 
#004 {N}+{E}                     { count(); yylval.fval = (F32)atof(yytext); return(FP_CONSTANT); }
识别浮点数。
 
#005 {N}*"."{N}+({E})?{FS}? { count(); yylval.fval = (F32)atof(yytext); return(FP_CONSTANT); }
识别浮点数。
 
#006 {N}+"."{N}*({E})?{FS}? { count(); yylval.fval = (F32)atof(yytext); return(FP_CONSTANT); }
识别浮点数。
 
#007 
#008 L?/"(//.|[^//"])*/"     { parse_string(); count(); return(STRING_CONSTANT); }
识别字符串常量。
 
下面一段是识别操作符的规则:
#001 "++"                { count(); return(INC_OP); }
#002 "--"                { count(); return(DEC_OP); }
#003 "+="                { count(); return(ADD_ASSIGN); }
#004 "-="                { count(); return(SUB_ASSIGN); }
#005 "*="                { count(); return(MUL_ASSIGN); }
#006 "/="                { count(); return(DIV_ASSIGN); }
#007 "%="                { count(); return(MOD_ASSIGN); }
 
 
下面两行:
#001 [ /t/v/n/f]             { count(); }
这行是处理制表符。
 
#002 .                   { /* ignore bad characters */ }
处理不能正确处理的字符。
 
通过上面这段 flex规则文件的分析,可以看到构造一个词法分析器,还是比较复杂的。如果使用手工来构造一个词法分析器会更加复杂多了。通过一节学会怎么编写flex词法分析器的规则。