这些字符集尤其是日文字符集的各种字、标点以及特殊符号的时候有所帮助。
UTF8
[/x01-/x7f]|[/xc0-/xdf][/x80-/xbf]|[/xe0-/xef][/x80-/xbf]{2}|[/xf0-/xff][/x80-/xbf]{3}
UTF16
[/x00-/xd7][/xe0-/xff]|[/xd8-/xdf][/x00-/xff]{2}
JIS
[/x20-/x7e]|[/x21-/x5f]|[/x21-/x7e]{2}
SJIS
[/x20-/x7e]|[/xa1-/xdf]|([/x81-/x9f]|[/xe0-/xef])([/x40-/x7e]|[/x80-/xfc])
EUC_JP
[/x20-/x7e]|/x81[/xa1-/xdf]|[/xa1-/xfe][/xa1-/xfe]|/x8f[/xa1-/xfe]{2}
EUC_JP标点符号及特殊字符
[/xa1-/xa2][/xa0-/xfe]
EUC_JP全角数字
/xa3[/xb0-/xb9]
EUC_JP全角大写英文
/xa3[/xc1-/xda]
EUC_JP全角小写英文
/xa3[/xe1-/xfa]
EUC_JP全角平假名
/xa4[/xa1-/xf3]
EUC_JP全角片假名 [color=Red]2007-03-12 15:00更新[/color]
/xa3[/xb0-/xb9]|/xa3[/xc1-/xda]|/xa5[/xa1-/xf6][/xa3][/xb0-/xfa]|[/xa1][/xbc-/xbe]|[/xa1][/xdd]
EUC_JP全角汉字 [color=Red]2007-03-12 15:06更新[/color]
[/xb0-/xcf][/xa0-/xd3]|[/xd0-/xf4][/xa0-/xfe]|[/xB0-/xF3][/xA1-/xFE]|[/xF4][/xA1-/xA6]|[/xA4][/xA1-/xF3]|[/xA5][/xA1-/xF6]|[/xA1][/xBC-/xBE]
Big5
[/x01-/x7f]|[/x81-/xfe]([/x40-/x7e]|[/xa1-/xfe])
GBK
[/x01-/x7f]|[/x81-/xfe][/x40-/xfe]
GB2312汉字
[/xb0-/xf7][/xa0-/xfe]
GB2312半角标点符号及特殊符号
/xa1[/xa2-/xfe]
GB2312罗马数组及项目序号
/xa2([/xa1-/xaa]|[/xb1-/xbf]|[/xc0-/xdf]|[/xe0-/xe2]|[/xe5-/xee]|[/xf1-/xfc])
GB2312全角标点及全角字母
/xa3[/xa1-/xfe]
GB2312日文平假名
/xa4[/xa1-/xf3]
GB2312日文片假名
/xa5[/xa1-/xf6]
補充:
GB18030
[/x00-/x7f]|[/x81-/xfe][/x40-/xfe]|[/x81-/xfe][/x30-/x39][/x81-/xfe][/x30-/x39]
[color=Red]2007-03-12 21:35 补充[/color]
日文半角空格
/x20
SJIS全角空格
(?:/x81/x81)
SJIS全角数字
(?:/x82[/x4f-/x58])
SJIS全角大写英文
(?:/x82[/x60-/x79])
SJIS全角小写英文
(?:/x82[/x81-/x9a])
SJIS全角平假名
(?:/x82[/x9f-/xf1])
SJIS全角平假名扩展
(?:/x82[/x9f-/xf1]|/x81[/x4a/x4b/x54/x55])
SJIS全角片假名
(?:/x83[/x40-/x96])
SJIS全角片假名扩展
(?:/x83[/x40-/x96]|/x81[/x45/x5b/x52/x53])
EUC_JP全角空格
(?:/xa1/xa1)
EUC半角片假名
(?:/x8e[/xa6-/xdf])
文字种类 | 类型 | 开始code | 结束code | 参考 |
全角文字 | CharTypeFwAll | (CharTypeFwSpace) + (CharTypeFwAlpha) + (CharTypeFwNumber) + (CharTypeKanji) + (CharTypeHiragana) + (CharTypeFwKatakana) |
||
半角文字 | CharTypeHwAll | 0x0020 | 0x009f | Latin |
0xff61 | 0xff9f | ← (CharTypeHwKatakana) | ||
半角スペース | CharTypeHwSpace | 0x0020 | 0x0020 | |
全角スペース | CharTypeFwSpace | 0x3000 | 0x3000 | |
半角アルファベット | CharTypeHwAlpha | 0x0041 | 0x005A | (CharTypeHwAlphaU) + (CharTypeHwAlphaL) |
0x0061 | 0x007A | |||
半角アルファベット大文字 | CharTypeHwAlphaU | 0x0041 | 0x005A | |
半角アルファベット小文字 | CharTypeHwAlphaL | 0x0061 | 0x007A | |
全角アルファベット | CharTypeFwAlpha | 0xff21 | 0xff3a | |
0xff41 | 0xff5a | |||
半角数字 | CharTypeHwNumber | 0x0030 | 0x0039 | |
全角数字 | CharTypeFwNumber | 0xff10 | 0xff19 | |
漢字 | CharTypeKanji | 0x2e80 | 0x2eff | CJK Radicals Supplement |
0x2f00 | 0x2fdf | Kangxi Radicals | ||
0x3100 | 0x312f | Bopomofo | ||
0x31a0 | 0x31bf | Bopomofo extended | ||
0x3400 | 0x4dbf | CJK Unified Ideographs | ||
0x4e00 | 0x9faf | CJK Unified Ideographs | ||
0xf900 | 0xfaff | CJK Compatibility Ideographs | ||
ひらがな | CharTypeHiragana | 0x3040 | 0x309f | |
全角カタカナ | CharTypeFwKatakana | 0x30a0 | 0x30ff | |
半角カタカナ | CharTypeHwKatakana | 0xff61 | 0xff9f |