• Machine Learning 神器 - sklearn

    时间:2022-06-26 11:06:59

    Sklearn官网提供了一个流程图,蓝色圆圈内是判断条件,绿色方框内是可以选择的算法:从START开始,首先看数据的样本是否 >50,小于则需要收集更多的数据。由图中,可以看到算法有四类,分类,回归,聚类,降维。其中 分类和回归是监督式学习,即每个数据对应一个label。 聚类 是非监督式学习...

  • 文本数据预处理:sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer

    时间:2022-06-18 07:11:50

    文本数据预处理的第一步通常是进行分词,分词后会进行向量化的操作。在介绍向量化之前,我们先来了解下词袋模型。1.词袋模型(Bagofwords,简称BoW)词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。词袋模型首先会进行分词,在分词之后,...

  • Sklearn 速查

    时间:2022-06-09 06:07:44

    版权所有,转帖注明出处章节SciKit-Learn加载数据集SciKit-Learn数据集基本信息SciKit-Learn使用matplotlib可视化数据SciKit-Learn可视化数据:主成分分析(PCA)SciKit-Learn预处理数据SciKit-LearnK均值聚类SciKit-Lea...

  • 转载:使用sklearn做单机特征工程

    时间:2022-06-05 12:37:31

    目录1特征工程是什么?2数据预处理2.1无量纲化2.1.1标准化2.1.2区间缩放法2.1.3标准化与归一化的区别2.2对定量特征二值化2.3对定性特征哑编码2.4缺失值计算2.5数据变换2.6回顾3特征选择3.1Filter3.1.1方差选择法3.1.2相关系数法3.1.3卡方检验3.1.4互信息...

  • sklearn中的数据预处理和特征工程

    时间:2022-05-27 08:00:57

    小伙伴们大家好~o( ̄▽ ̄)ブ,沉寂了这么久我又出来啦,这次先不翻译优质的文章了,这次我们回到Python中的机器学习,看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下我的开发环境是Jupyterlab,所用的库和版本大家参考:Python3.7.1(你的版本至少要3.4以上)Sc...

  • 【机器学习学习】SKlearn + XGBoost 预测 Titanic 乘客幸存

    时间:2022-05-19 01:22:58

    Titanic数据集是从kaggle下载的,下载地址:https://www.kaggle.com/c/titanic/data数据一共又3个文件,分别是:train.csv,test.csv,gender_submission.csv先把需要视同的库导入:importosimportdatetim...

  • 安装sklearn过程

    时间:2022-05-16 07:01:21

    sklearn是scikit-learn的简称,诸多python工具包都需要这个库安装顺序:wheelnumpyscipysklearn因为这个库一直安装不好,都没有动力继续深造机器学习了,,,,kuku报错原因:Windows系统的pipinstall可能对于scipy等库的安装不大支持,因此需要...

  • 机器学习-训练模型的保存与恢复(sklearn)

    时间:2022-05-14 00:27:59

    在做模型训练的时候,尤其是在训练集上做交叉验证,通常想要将模型保存下来,然后放到独立的测试集上测试,下面介绍的是Python中训练模型的保存和再使用。scikit-learn已经有了模型持久化的操作,导入joblib即可fromsklearn.externalsimportjoblib模型保存>...

  • sklearn-GBDT 调参

    时间:2022-05-05 02:56:56

    1. scikit-learnGBDT类库概述在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类,而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同,当然有些参数比如损失函数loss的可选择项并不相同。这...

  • 3. sklearn的K-Means的使用

    时间:2022-04-16 17:21:20

    1.K-Means原理解析2.K-Means的优化3.sklearn的K-Means的使用4.K-Means和K-Means++实现1.前言在机器学习中有几个重要的python学习包。sklearn:sklearn里面包含了各种机器学习的算法结构numpy:numpy里面主要是矩阵的运算和数据的处理...

  • Python初探——sklearn库中数据预处理函数fit_transform()和transform()的区别

    时间:2022-04-16 07:33:30

    敲《Python机器学习及实践》上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下:#从sklearn.preprocessing导入StandardScalerfromsklearn.prepro...

  • 『Sklearn』自带数据集API

    时间:2022-03-28 07:02:55

    自带数据集类型如下:#自带小型数据集#sklearn.datasets.load_<name>#在线下载数据集#sklearn.datasets.fetch_<name>#计算机生成数据集#sklearn.datasets.make_<name>#svmlight...

  • python数据分析之用sklearn预测糖尿病

    时间:2022-03-18 01:05:31

    这篇文章主要介绍了python数据分析之用sklearn预测糖尿病,文中有非常详细的代码示例,对正在学习python数据分析的小伙伴们有很好地帮助,需要的朋友可以参考下

  • 机器学习实战基础(九):sklearn中的数据预处理和特征工程(二) 数据预处理 Preprocessing & Impute 之 数据无量纲化

    时间:2022-02-18 08:20:07

    1数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中,譬如逻辑回归,支持向量机,神经网络,无量纲化可以加快求解速度;而在距离类模型,譬如K近邻,K-Means聚类中,无...

  • Python机器学习笔记:sklearn库的学习

    时间:2022-02-06 14:40:23

    网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一方面,所以最好的教程其实就是官方文档。官方文档地址:https://scikit-learn.org/stable/(可是官方文档非常详细,同时许多人对官方文档的理解和结构上都不能很好地把握,我也打算好好学习sklearn,这可能是机...

  • Python下的机器学习工具sklearn--数据预处理

    时间:2021-12-29 14:03:57

    1.数据标准化(StandardizationorMeanRemovalandVarianceScaling)进行标准化缩放的数据均值为0,具有单位方差。fromsklearnimportpreprocessingX=[[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]]X_sca...

  • Python及其接口函数库(TensorFlow、NumPy、Matplotlib、sklearn、pandas)参考资料(更新中,更新日期:2017-07-10)

    时间:2021-12-28 03:57:35

    Python1.Python基础教程2.Python学习与分享平台3.Python3.6.2rc2documentationTensorFlowNumPyNumPyIndexMatplotlibMatplotlib官方教程sklearnsklearn官方教程pandaspandas官方教程...

  • sklearn的K折交叉验证函数KFold使用

    时间:2021-12-25 05:55:52

    K折交叉验证时使用:KFold(n_split,shuffle,random_state)参数:n_split:要划分的折数shuffle:每次都进行shuffle,测试集中折数的总和就是训练集的个数random_state:随机状态fromsklearn.model_selectionimport...

  • 机器学习算法应用篇之决策树算法(sklearn)

    时间:2021-12-20 10:38:47

    从本篇文章开始,我将开始写机器学习算法的一系列文章,总结自己在学习应用机器学习算法过程中的学习经验与方法,主要利用工具是python的机器学习库sklearn。主要包括以下算法:决策树算法(ID3,ID4.5,CART等),朴素贝叶斯方法(NavieBayes),支持向量基(SVM),K均值算法(K...

  • sklearn聚类评价指标

    时间:2021-12-17 09:39:49

    sklearn中的指标都在sklearn.metric包下,与聚类相关的指标都在sklearn.metric.cluster包下,聚类相关的指标分为两类:有监督指标和无监督指标,这两类指标分别在sklearn.metric.cluster.supervised和sklearn.metric.clus...