pandas的Categorical方法

　　对于数据样本的标签，如果我们事先不知道这个样本有多少类别，那么可以对数据集的类别列进行统计，这时我们用pandas的Categorical方法就非常快的实现。

1.说明：　

　　你的数据最好是一个series，之后，pd.Categorical(series)，得到分类的对象，使用categories或者codes进行查看

2.操作：

pd.Categorical( list ).codes 这样就可以直接得到原始数据的对应的序号列表，通过这样的处理可以将类别信息转化成数值信息，这样就可以应用到模型中去了

代码：

 import tensorflow

 import lightgbm as lgb

 import pandas as pd

 class Deng(object):

     def __init__(self):

         pass

     def main(self):

         temp = ['a', 'a', 'b', 'c', 'c']

         st = pd.Categorical(temp)

         print(st)

         # [a, a, b, c, c]

         # Categories(, object): [a, b, c]

         # 遍历temp指出temp中每个字符所属类别的位置索引

         st2 = st.codes

         print(st2)

         # [    ]

 if __name__ == '__main__':

     obj = Deng()

     obj.main()

秒客网

pandas的Categorical方法

相关文章