使用Unicode字符类
在W3C XML Schema 文档中使用Unicode 字符类是,字符类通过如下方式来指定:
\p{字符类}
W3C XML Schema 支持的Unicode字符类
Unicode |
说明 |
C |
其他字符 |
Cc |
控制字符 |
Cf |
格式字符 |
Cn |
未指定的编码点 |
L |
字母 |
L1 |
小写字母 |
Lm |
修饰字母 |
Ln |
其他字母 |
Lt |
标题格(Title-case)字母 |
Lu |
大写字母 |
M |
所有标记(mark) |
Mc |
组合空格标记 |
Mc |
封装标记 |
Mn |
非空格标记 |
N |
数值 |
Nd |
十进制数 |
N1 |
数字字母 |
No |
其他数字 |
P |
标点符号 |
Pc |
连接器标点符号 |
Pd |
破折号 |
Pe |
结束标点符号 |
Pf |
后引号号 |
Pi |
前引号 |
Po |
其他形式的标点符号 |
Ps |
开始的标点符号 |
S |
符号(symbols) |
Sc |
货币符号 |
Sk |
修饰符号 |
Sm |
数学符号 |
So |
其他符号 |
Z |
分隔符 |
Z1 |
换行符 |
Zp |
分段符 |
Zs |
空格符 |
UnicodeCategory 枚举
|
成员名称 |
说明 |
Lu |
UppercaseLetter |
指示字符是大写字母。值为 0。 |
Ll |
LowercaseLetter |
指示字符是小写字母。值为 1。 |
Lt |
TitlecaseLetter |
指示字符是词首字母大写字母。值为 2。 |
Lm |
ModifierLetter |
指示字符是修饰符字母,它是独立式的间距字符,指示前面字母的修改。值为 3。 |
Lo |
OtherLetter |
指示字符是字母,但它不是大写字母、小写字母、词首字母大写或修饰符字母。值为 4. |
Mn |
NonSpacingMark |
指示字符是非间距字符,这指示基字符的修改。值为 5。 |
Mc |
SpacingCombiningMark |
指示字符是间距字符,这指示基字符的修改并影响该基字符的标志符号的宽度。值为 6。 |
Me |
EnclosingMark |
指示字符是封闭符号,封闭符号是非间距组合字符,它环绕直到基字符(并包括基字符)的所有前面的字符。值为 7。 |
Nd |
DecimalDigitNumber |
指示字符是十进制数字,即在范围 0 到 9 内。值为 8。 |
Nl |
LetterNumber |
指示字符是由字母表示的数字,而不是十进制数字,例如,罗马数字 5 由字母“V”表示。值为 9。 |
No |
OtherNumber |
指示字符是数字,但它既不是十进制数字也不是字母数字,例如分数 1/2。值为 10。 |
Zs |
SpaceSeparator |
指示字符是空白字符,它不具有标志符号,但不是控制或格式字符。值为 11。 |
Zl |
LineSeparator |
指示字符用于分隔文本各行。值为 12 |
Zp |
ParagraphSeparator |
指示字符用于分隔段落。值为 13。 |
Cc |
Control |
指示字符是控制代码,其 Unicode 值是 U+007F,或者位于 U+0000 到 U+001F 或 U+0080 到 U+009F 范围内。值为 14 |
Cf |
Format |
指示字符是格式字符,格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。值为 1。 |
Cs |
Surrogate |
指示字符是高代理项还是低代理项。代理项代码值在范围 U+D800 到 U+DFFF 内。值为 16。 |
Co |
PrivateUse |
指示字符是专用字符,其 Unicode 值在范围 U+E000 到 U+F8FF 内。值为17。 |
Pc |
ConnectorPunctuation |
指示字符是连接两个字符的连接符标点。值为 18。 |
Pd |
DashPunctuation |
指示字符是短划线或连字符。值为 19。 |
Ps |
OpenPunctuation |
指示字符是成对的标点符号(例如括号、方括号和大括号)之一的开始字符。值为 20。 |