学习《精通特征工程》中文PDF+英文PDF+代码对比

时间:2024-02-22 21:06:48

特征工程是机器学习流程中至关重要的一个环节,这方面的书较少,推荐学习《精通特征工程》,着重阐明特征工程的基本原则,介绍大量特征工程技术,学习从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。

《精通特征工程》并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重点放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。最后一章通过一个完整的例子演示了多种特征工程技术的实际应用。所有代码示例均是用Python编写的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。

学习参考:

《精通特征工程》中文PDF,178页,带书签目录,文字可以复制。
《精通特征工程》英文PDF,217页,带书签目录,文字可以复制。
配套源代码。

下载: https://pan.baidu.com/s/1C7-8bF3-5_uuXI2T_LPdCg
提取码: znvq

 

学习内容:

数值型数据的特征工程:过滤、分箱、缩放、对数变换和指数变换
自然文本技术:词袋、n元词与短语检测
基于频率的过滤和特征缩放


分类变量编码技术:特征散列化与分箱计数
使用主成分分析的基于模型的特征工程
模型堆叠与k-均值特征化
图像特征提取:人工提取与深度学习

特征工程用于机器学习中,学习机器学习推荐看看《机器学习实战》

下载: https://pan.baidu.com/s/16Ji-HGhJGSeniAlq8StoCg
提取码: gf75

《机器学习实战》中文PDF,336页,带书签目录,文字可复制。

《机器学习实战》英文PDF,382页,带书签目录,文字可复制,彩色配图。
配套源代码。

第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。

第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。

 国内的机器学习书推荐学习周志华老师的《机器学习》,《机器学习》作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面。 为了使尽可能多的读者通过本书对机器学习有所了解, 作者试图尽可能少地使用数学知识. 然而, 少量的概率、统计、代数、优化、逻辑知识不可避免,附录给出了一些相关数学基础知识简介.

 

《机器学习》PDF,周志华著,443页,带书签目录,文字可以复制。
配套《机器学习》笔记;
配套《机器学习》课件;
配套《机器学习》习题部分解答及代码。

下载: https://pan.baidu.com/s/1hy7iL8oO3Z0CSG36dOfZqg
提取码: y36q


《机器学习》共16 章,大致分为3 个部分:第1 部分(第1~3 章)介绍机器学习的基础知识;第2 部分(第4~10 章)讨论一些经典而常用的机器学习方法(决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习);第3 部分(第11~16 章)为进阶知识,内容涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习以及强化学习等.前3章之外的后续各章均相对独立, 读者可根据自己的兴趣和时间情况选择使用. 根据课时情况, 一个学期的本科生课程可考虑讲授前9章或前10章; 研究生课程则不妨使用全书.

书中除第1章外, 每章都给出了十道习题. 有的习题是帮助读者巩固本章学习, 有的是为了引导读者扩展相关知识. 一学期的一般课程可使用这些习题, 再辅以两到三个针对具体数据集的大作业. 带星号的习题则有相当难度, 有些并无现成答案, 谨供富有进取心的读者启发思考.

 学习机器学习时,国外有很多教程讲的不错,但是提供的例子感觉总是不太合适,相比而言,国内教材中一些示例还是挺实用的,推荐一本非常好的机器学习入门和实践的书籍《机器学习—Python实践》。

学习参考:
《机器学习Python实践》PDF,227页,带目录,文字可以复制;配套源代码;作者:魏贞原

下载: https://pan.baidu.com/s/1ei3L4zeG1UJYbZYjYFJ1BA
提取码: is7c

 

《机器学习—Python实践》以实践为导向,使用 scikit-learn 作为编程框架,强调简单、快速地建立模型,解决实际项目问题。通过对《机器学习——Python实践》的学习,可以迅速上手实践机器学习,并利用机器学习解决实际问题,非常适合于项目经理、有意从事机器学习开发的程序员,相关专业人士阅读。

 

TF方面推荐学习参考《TensorFlow进阶指南:基础、算法与应用》,详细地解析了使用TensorFlow进行深度学习领域中常用模型的搭建、调参和部署整个流程,以及数据集的使用方法,能够帮助快速理解和掌握TensorFlow相关技术,最后还用实战项目帮助快速地学会TensorFlow开发,并使用TensorFlow技术来解决实际问题。

《TensorFlow进阶指南基础算法与应用》PDF,374页,带书签目录,文字可以复制。
配套源代码;作者:黄鸿波

下载: https://pan.baidu.com/s/1kUOna7OhUEqmlQ-cIzt-PQ
提取码: pny6