6 MySQL UDF提取字符串中的字符(中文、英文、数字)

时间:2021-05-11 06:54:04

1 概述

由于 MySQL 不提供正则替换、分割等函数,所以无法像程序语言一样直接采用正则函数处理。MySQL 只提供正则匹配即 regexp 关键字,所以以下采用思路是遍历字符串中为每一个字符来匹配提取。

  • 匹配中文:[^ -~]hex(name) regexp 'e[4-9][0-9a-f]{4}'^[\u4e00-\u9fa5]
  • 匹配数字:[0-9]
  • 匹配字母:[a-zA-Z]

2 UDF 语法

create function function_name(param_name type[…]) returns type
begin
function body…
end

函数变量

  • 声明:declare var_name[,…] type [default value]
  • 赋值:set var_name=value;select c1 into var_name。使用 set 或 select into 赋值

分支结构

if

if condition then
statements;
[elseif condition then statements]
...
[else statements]
end if;

case

case case_value
when when_value then
statements;
[when when_value then statements]
...
[else statements]
end case;

循环结构

[begin_label:]while condition do
statements;
end while [end_label]

leave 相当与 break,用于退出整个循环。
iterate 相当于 continue,用于退出当前循环。
通过退出的 label 来决定退出哪个循环。

3 UDF 示例

流程图

6 MySQL UDF提取字符串中的字符(中文、英文、数字)

CODE

CREATE FUNCTION `get_char`(str varchar(200) charset utf8, delimiters varchar(10), type char(1)) RETURNS varchar(200) CHARSET utf8
BEGIN
-- -----------------------------------------------------------
-- usage:select get_char("我wo是15国de3国花duo", ",", 'n');
-- -------------------------------------------------------------
-- 将字符串中的字符(中文、英文、数字)全部提出,并以分隔符分隔
-- @param str varchar(200) 输入字符串
-- @param delimiters varchar(20) 分隔符
-- @param type char(1) 提取的字符类型(c-中文, e-英文, n-数字)
-- @return varchar(200) 返回的字符串
-- -----------------------------------------------------------
declare i tinyint unsigned default 0;
declare len tinyint unsigned;
declare separators varchar(10) default "";
declare next_char char(1) charset utf8 default null;
declare result_char varchar(200) charset utf8 default "";
declare regexp_rule varchar(50) charset utf8 default "";

set len=char_length(str);

if type='c' then
set regexp_rule="[^ -~]";
elseif type='e' then
set regexp_rule="[a-zA-Z]";
elseif type='n' then
set regexp_rule="[0-9]";
else
return "";
end if;

while i<=len do
set next_char=substring(str, i, 1);
if next_char regexp regexp_rule then
set result_char=concat_ws(separators, result_char, next_char);
if substring(str, i+1, 1) regexp regexp_rule then
set separators="";
else
set separators=delimiters;
end if;
end if;
set i=i+1;
end while;

RETURN result_char;
END