Python pandas 数据框的str列内置的方法详解

时间:2022-06-07 04:47:52


        在使用pandas框架的DataFrame的过程中,如果需要处理一些字符串的特性,例如判断某列是否包含一些关键字,某列的字符长度是否小于3等等这种需求,如果掌握str列内置的方法,处理起来会方便很多。
        下面我们来详细了解一下,Series类的str自带的方法有哪些。
1、cat() 拼接字符串        例子:        >>> Series(['a', 'b', 'c']).str.cat(['A', 'B', 'C'], sep=',')        0 a,A        1 b,B        2 c,C        dtype: object        >>> Series(['a', 'b', 'c']).str.cat(sep=',')        'a,b,c'        >>> Series(['a', 'b']).str.cat([['x', 'y'], ['1', '2']], sep=',')        0    a,x,1        1    b,y,2        dtype: object2、split() 切分字符串        >>> import numpy,pandas;        >>> s = pandas.Series(['a_b_c', 'c_d_e', numpy.nan, 'f_g_h'])        >>> s.str.split('_')        0    [a, b, c]        1    [c, d, e]        2          NaN        3    [f, g, h]        dtype: object        >>> s.str.split('_', -1)        0    [a, b, c]        1    [c, d, e]        2          NaN        3    [f, g, h]        dtype: object        >>> s.str.split('_', 0)        0    [a, b, c]        1    [c, d, e]        2          NaN        3    [f, g, h]        dtype: object        >>> s.str.split('_', 1)        0    [a, b_c]        1    [c, d_e]        2         NaN        3    [f, g_h]        dtype: object        >>> s.str.split('_', 2)        0    [a, b, c]        1    [c, d, e]        2          NaN        3    [f, g, h]        dtype: object        >>> s.str.split('_', 3)        0    [a, b, c]        1    [c, d, e]        2          NaN        3    [f, g, h]        dtype: object3、get() 获取指定位置的字符串        >>> s.str.get(0)        0      a        1      c        2    NaN        3      f        dtype: object        >>> s.str.get(1)        0      _        1      _        2    NaN        3      _        dtype: object        >>> s.str.get(2)        0      b        1      d        2    NaN        3      g        dtype: object4、join() 对每个字符都用给点的字符串拼接起来,不常用        >>> s.str.join("!")        0    a!_!b!_!c        1    c!_!d!_!e        2          NaN        3    f!_!g!_!h        dtype: object        >>> s.str.join("?")        0    a?_?b?_?c        1    c?_?d?_?e        2          NaN        3    f?_?g?_?h        dtype: object        >>> s.str.join(".")        0    a._.b._.c        1    c._.d._.e        2          NaN        3    f._.g._.h        dtype: object5、contains() 是否包含表达式        >>> s.str.contains('d')        0    False        1     True        2      NaN        3    False        dtype: object6、replace() 替换        >>> s.str.replace("_", ".")        0    a.b.c        1    c.d.e        2      NaN        3    f.g.h        dtype: object7、repeat() 重复        >>> s.str.repeat(3)        0    a_b_ca_b_ca_b_c        1    c_d_ec_d_ec_d_e        2                NaN        3    f_g_hf_g_hf_g_h        dtype: object8、pad() 左右补齐>>> s.str.pad(10, fillchar="?")0    ?????a_b_c1    ?????c_d_e2           NaN3    ?????f_g_hdtype: object>>>>>> s.str.pad(10, side="right", fillchar="?")0    a_b_c?????1    c_d_e?????2           NaN3    f_g_h?????dtype: object9、center() 中间补齐,看例子>>> s.str.center(10, fillchar="?")0    ??a_b_c???1    ??c_d_e???2           NaN3    ??f_g_h???dtype: object10、ljust() 右边补齐,看例子>>> s.str.ljust(10, fillchar="?")0    a_b_c?????1    c_d_e?????2           NaN3    f_g_h?????dtype: object11、rjust() 左边补齐,看例子>>> s.str.rjust(10, fillchar="?")0    ?????a_b_c1    ?????c_d_e2           NaN3    ?????f_g_hdtype: object12、zfill() 左边补0>>> s.str.zfill(10)0    00000a_b_c1    00000c_d_e2           NaN3    00000f_g_hdtype: object13、wrap() 在指定的位置加回车符号>>> s.str.wrap(3)0    a_b\n_c1    c_d\n_e2        NaN3    f_g\n_hdtype: object14、slice() 按给点的开始结束位置切割字符串>>> s.str.slice(1,3)0     _b1     _d2    NaN3     _gdtype: object15、slice_replace() 使用给定的字符串,替换指定的位置的字符>>> s.str.slice_replace(1, 3, "?")0    a?_c1    c?_e2     NaN3    f?_hdtype: object>>> s.str.slice_replace(1, 3, "??")0    a??_c1    c??_e2      NaN3    f??_hdtype: object16、count() 计算给定单词出现的次数>>> s.str.count("a")0     11     02   NaN3     0dtype: float6417、startswith() 判断是否以给定的字符串开头>>> s.str.startswith("a");0     True1    False2      NaN3    Falsedtype: object18、endswith() 判断是否以给定的字符串结束>>> s.str.endswith("e");0    False1     True2      NaN3    Falsedtype: object19、findall() 查找所有符合正则表达式的字符,以数组形式返回>>> s.str.findall("[a-z]");0    [a, b, c]1    [c, d, e]2          NaN3    [f, g, h]dtype: object20、match() 检测是否全部匹配给点的字符串或者表达式>>> s0    a_b_c1    c_d_e2      NaN3    f_g_hdtype: object>>> s.str.match("[d-z]");0    False1    False2      NaN3     Truedtype: object21、extract() 抽取匹配的字符串出来,注意要加上括号,把你需要抽取的东西标注上>>> s.str.extract("([d-z])");0    NaN1      d2    NaN3      fdtype: object22、len() 计算字符串的长度>>> s.str.len()0     51     52   NaN3     5dtype: float64 23、strip() 去除前后的空白字符>>> idx = pandas.Series([' jack', 'jill ', ' jesse ', 'frank'])>>> idx.str.strip()0     jack1     jill2    jesse3    frankdtype: object24、rstrip() 去除后面的空白字符25、lstrip() 去除前面的空白字符26、partition() 把字符串数组切割称为DataFrame,注意切割只是切割称为三部分,分隔符前,分隔符,分隔符后27、rpartition() 从右切起>>> s.str.partition('_') 0    1    20    a    _  b_c1    c    _  d_e2  NaN  NaN  NaN3    f    _  g_h>>> s.str.rpartition('_') 0    1    20  a_b    _    c1  c_d    _    e2  NaN  NaN  NaN3  f_g    _    h28、lower() 全部小写29、upper() 全部大写30、find() 从左边开始,查找给定字符串的所在位置>>> s.str.find('d')0    -11     22   NaN3    -1dtype: float6431、rfind() 从右边开始,查找给定字符串的所在位置
32、index() 查找给定字符串的位置,注意,如果不存在这个字符串,那么会报错!33、rindex() 从右边开始查找,给定字符串的位置>>> s.str.index('_')0     11     12   NaN3     1dtype: float6434、capitalize() 首字符大写>>> s.str.capitalize()0    A_b_c1    C_d_e2      NaN3    F_g_hdtype: object35、swapcase() 大小写互换>>> s.str.swapcase()0    A_B_C1    C_D_E2      NaN3    F_G_Hdtype: object36、normalize() 序列化数据,数据分析很少用到,咱们就不研究了37、isalnum() 是否全部是数字和字母组成>>> s.str.isalnum()0    False1    False2      NaN3    Falsedtype: object38、isalpha() 是否全部是字母>>> s.str.isalpha()0    False1    False2      NaN3    Falsedtype: object39、isdigit() 是否全部都是数字>>> s.str.isdigit()0    False1    False2      NaN3    Falsedtype: object40、isspace() 是否空格>>> s.str.isspace()0    False1    False2      NaN3    Falsedtype: object41、islower() 是否全部小写42、isupper() 是否全部大写>>> s.str.islower()0    True1    True2     NaN3    Truedtype: object>>> s.str.isupper()0    False1    False2      NaN3    Falsedtype: object43、istitle() 是否只有首字母为大写,其他字母为小写>>> s.str.istitle()0    False1    False2      NaN3    Falsedtype: object44、isnumeric() 是否是数字45、isdecimal() 是否全是数字