scikit是目前最流行的python开源机器学习工具之一,它封装了线性回归、逻辑回归、神经网络、决策树、k-means等多种机器学习/数据挖掘常用模型,非常适合数据分析师或科研人员使用。
scikit相对于R、matlab的优势在于它是用python编写的,因此scikit可以对接大量已有的python库,例如使用结巴分词(python中文分词)配合scikit中的聚类算法,就可以轻松地完成文本的聚类。
scikit教程列表如下(持续更新):
scikit使用教程
scikit数据集简介
目录中的教程使用scikit配合matplotlib(Python的绘图组件,主要用于绘制统计图,如图)来介绍scikit中封装的各种机器学习算法。