正则表达式的编码范围

时间:2023-01-10 11:14:11

这些字符集尤其是日文字符集的各种字、标点以及特殊符号的时候有所帮助。 
UTF8
[/x01-/x7f]|[/xc0-/xdf][/x80-/xbf]|[/xe0-/xef][/x80-/xbf]{2}|[/xf0-/xff][/x80-/xbf]{3}
UTF16
[/x00-/xd7][/xe0-/xff]|[/xd8-/xdf][/x00-/xff]{2}
JIS
[/x20-/x7e]|[/x21-/x5f]|[/x21-/x7e]{2}
SJIS
[/x20-/x7e]|[/xa1-/xdf]|([/x81-/x9f]|[/xe0-/xef])([/x40-/x7e]|[/x80-/xfc])
EUC_JP        
[/x20-/x7e]|/x81[/xa1-/xdf]|[/xa1-/xfe][/xa1-/xfe]|/x8f[/xa1-/xfe]{2}
EUC_JP标点符号及特殊字符        
[/xa1-/xa2][/xa0-/xfe]
EUC_JP全角数字
/xa3[/xb0-/xb9]
EUC_JP全角大写英文
/xa3[/xc1-/xda]
EUC_JP全角小写英文     
/xa3[/xe1-/xfa]
EUC_JP全角平假名
/xa4[/xa1-/xf3]
EUC_JP全角片假名 [color=Red]2007-03-12 15:00更新[/color]
/xa3[/xb0-/xb9]|/xa3[/xc1-/xda]|/xa5[/xa1-/xf6][/xa3][/xb0-/xfa]|[/xa1][/xbc-/xbe]|[/xa1][/xdd]
EUC_JP全角汉字 [color=Red]2007-03-12 15:06更新[/color]
[/xb0-/xcf][/xa0-/xd3]|[/xd0-/xf4][/xa0-/xfe]|[/xB0-/xF3][/xA1-/xFE]|[/xF4][/xA1-/xA6]|[/xA4][/xA1-/xF3]|[/xA5][/xA1-/xF6]|[/xA1][/xBC-/xBE]
Big5
[/x01-/x7f]|[/x81-/xfe]([/x40-/x7e]|[/xa1-/xfe])
GBK
[/x01-/x7f]|[/x81-/xfe][/x40-/xfe]
GB2312汉字
[/xb0-/xf7][/xa0-/xfe]
GB2312半角标点符号及特殊符号
/xa1[/xa2-/xfe]
GB2312罗马数组及项目序号
/xa2([/xa1-/xaa]|[/xb1-/xbf]|[/xc0-/xdf]|[/xe0-/xe2]|[/xe5-/xee]|[/xf1-/xfc])
GB2312全角标点及全角字母
/xa3[/xa1-/xfe]
GB2312日文平假名
/xa4[/xa1-/xf3]
GB2312日文片假名
/xa5[/xa1-/xf6]
補充: 
GB18030
[/x00-/x7f]|[/x81-/xfe][/x40-/xfe]|[/x81-/xfe][/x30-/x39][/x81-/xfe][/x30-/x39]
[color=Red]2007-03-12 21:35 补充[/color] 
日文半角空格
/x20
SJIS全角空格
(?:/x81/x81)
SJIS全角数字
(?:/x82[/x4f-/x58])
SJIS全角大写英文
(?:/x82[/x60-/x79])
SJIS全角小写英文
(?:/x82[/x81-/x9a])
SJIS全角平假名
(?:/x82[/x9f-/xf1])
SJIS全角平假名扩展
(?:/x82[/x9f-/xf1]|/x81[/x4a/x4b/x54/x55])
SJIS全角片假名
(?:/x83[/x40-/x96])
SJIS全角片假名扩展
(?:/x83[/x40-/x96]|/x81[/x45/x5b/x52/x53])
EUC_JP全角空格
(?:/xa1/xa1)
EUC半角片假名
(?:/x8e[/xa6-/xdf]) 

文字种类 类型 开始code 结束code 参考
全角文字 CharTypeFwAll     (CharTypeFwSpace)
+ (CharTypeFwAlpha)
+ (CharTypeFwNumber)
+ (CharTypeKanji)
+ (CharTypeHiragana)
+ (CharTypeFwKatakana)
半角文字 CharTypeHwAll 0x0020 0x009f Latin
    0xff61 0xff9f ← (CharTypeHwKatakana)
半角スペース CharTypeHwSpace 0x0020 0x0020  
全角スペース CharTypeFwSpace 0x3000 0x3000  
半角アルファベット CharTypeHwAlpha 0x0041 0x005A (CharTypeHwAlphaU)
+ (CharTypeHwAlphaL)
    0x0061 0x007A  
半角アルファベット大文字 CharTypeHwAlphaU 0x0041 0x005A  
半角アルファベット小文字 CharTypeHwAlphaL 0x0061 0x007A  
全角アルファベット CharTypeFwAlpha 0xff21 0xff3a  
    0xff41 0xff5a  
半角数字 CharTypeHwNumber 0x0030 0x0039  
全角数字 CharTypeFwNumber 0xff10 0xff19  
漢字 CharTypeKanji 0x2e80 0x2eff CJK Radicals Supplement
    0x2f00 0x2fdf Kangxi Radicals
    0x3100 0x312f Bopomofo
    0x31a0 0x31bf Bopomofo extended
    0x3400 0x4dbf CJK Unified Ideographs
    0x4e00 0x9faf CJK Unified Ideographs
    0xf900 0xfaff CJK Compatibility Ideographs
ひらがな CharTypeHiragana 0x3040 0x309f  
全角カタカナ CharTypeFwKatakana 0x30a0 0x30ff  
半角カタカナ CharTypeHwKatakana 0xff61 0xff9f