机器学习(Machine Learning)&深度学习(Deep Learning)资料(下）

转载：http://www.jianshu.com/p/b73b6953e849

该资源的github地址:Qix

《Statistical foundations of machine learning》

介绍:《机器学习的统计基础》在线版，该手册希望在理论与实践之间找到平衡点，各主要内容都伴有实际例子及数据，书中的例子程序都是用R语言编写的。

《A Deep Learning Tutorial: From Perceptrons to Deep Networks》

介绍:IVAN VASILEV写的深度学习导引：从浅层感知机到深度网络。高可读

《Research priorities for robust and beneficial artificial intelligence》

介绍:鲁棒及有益的人工智能优先研究计划：一封公开信,目前已经有Stuart
Russell, Tom Dietterich, Eric Horvitz, Yann LeCun, Peter Norvig, Tom
Mitchell, Geoffrey Hinton, Elon Musk等人签署The Future of Life Institute
(FLI).这封信的背景是最近霍金和Elon
Musk提醒人们注意AI的潜在威胁。公开信的内容是AI科学家们站在造福社会的角度，展望人工智能的未来发展方向，提出开发AI系统的Verification，Validity,
Security, Control四点要求，以及需要注意的社会问题。毕竟当前AI在经济领域，法律，以及道德领域相关研究较少。其实还有一部美剧《疑犯追踪》,介绍了AI的演进从一开始的自我学习，过滤，图像识别，语音识别等判断危险，到第四季的时候出现了机器通过学习成长之后想控制世界的状态。说到这里推荐收看。

《metacademy》

介绍:里面根据词条提供了许多资源，还有相关知识结构，路线图，用时长短等。号称是”机器学习“搜索引擎

《FAIR open sources deep-learning modules for Torch》

介绍:Facebook人工智能研究院（FAIR）开源了一系列软件库，以帮助开发者建立更大、更快的深度学习模型。开放的软件库在
Facebook 被称作模块。用它们替代机器学习领域常用的开发环境 Torch 中的默认模块，可以在更短的时间内训练更大规模的神经网络模型。

《浅析人脸检测之Haar分类器方法》

介绍:本文虽然是写于2012年，但是这篇文章完全是作者的经验之作。

《如何成为一位数据科学家》

介绍:本文是对《机器学习实战》作者Peter Harrington做的一个访谈。包含了书中部分的疑问解答和一点个人学习建议

《Deep learning from the bottom up》

介绍:非常好的深度学习概述，对几种流行的深度学习模型都进行了介绍和讨论

《Hands-On Data Science with R Text Mining》

介绍:主要是讲述了利用R语言进行数据挖掘

《Understanding Convolutions》

介绍:帮你理解卷积神经网络，讲解很清晰，此外还有两篇Conv Nets: A Modular Perspective，Groups
& Group Convolutions. 作者的其他的关于神经网络文章也很棒

《Introduction to Deep Learning Algorithms》

介绍:Deep Learning算法介绍，里面介绍了06年3篇让deep learning崛起的论文

《Learning Deep Architectures for AI》

介绍:一本学习人工智能的书籍，作者是Yoshua Bengio，相关国内报道

《Geoffrey E. Hinton个人主页》

介绍:Geoffrey Hinton是Deep Learning的大牛，他的主页放了一些介绍性文章和课件值得学习

《PROBABILITY THEORY: THE LOGIC OF SCIENCE》

介绍:概率论：数理逻辑书籍

《H2O》

介绍:一个用来快速的统计，机器学习并且对于数据量大的数学库

《ICLR 2015会议的arXiv稿件合集》

介绍:在这里你可以看到最近深度学习有什么新动向。

《Introduction to Information Retrieval》

介绍:此书在信息检索领域家喻户晓，除提供该书的免费电子版外，还提供一个IR资源列表，收录了信息检索、网络信息检索、搜索引擎实现等方面相关的图书、研究中心、相关课程、子领域、会议、期刊等等，堪称全集，值得收藏

《Information Geometry and its Applications to Machine Learning》

介绍:信息几何学及其在机器学习中的应用

《Legal Analytics – Introduction to the Course》

介绍:课程《法律分析》介绍幻灯片。用机器学习解决法律相关分析和预测问题，相关的法律应用包括预测编码、早期案例评估、案件整体情况的预测，定价和工作人员预测，司法行为预测等。法律领域大家可能都比较陌生，不妨了解下。

《文本上的算法》

介绍: 文中提到了最优，模型，最大熵等等理论，此外还有应用篇。推荐系统可以说是一本不错的阅读稿，关于模型还推荐一篇Generative Model 与 Discriminative Model

《NeuralTalk》

介绍: NeuralTalk is a Python+numpy
project for learning Multimodal Recurrent Neural Networks that describe
images with sentences.NeuralTalk是一个Python的从图像生成自然语言描述的工具。它实现了Google
(Vinyals等，卷积神经网络CNN + 长短期记忆LSTM) 和斯坦福 (Karpathy and Fei-Fei， CNN +
递归神经网络RNN)的算法。NeuralTalk自带了一个训练好的动物模型，你可以拿狮子大象的照片来试试看

《Deep Learning on Hadoop 2.0》

介绍:本文主要介绍了在Hadoop2.0上使用深度学习,文章来自paypal

《Practical recommendations for gradient-based training of deep architectures》

介绍:用基于梯度下降的方法训练深度框架的实践推荐指导,作者是Yoshua Bengio.感谢@xuewei4d 推荐

《Machine Learning With Statistical And Causal Methods》

介绍: 用统计和因果方法做机器学习（视频报告）

《Machine Learning Course 180’》

介绍: 一个讲机器学习的Youtube视频教程。160集。系统程度跟书可比拟。

《回归(regression)、梯度下降(gradient descent)》

介绍: 机器学习中的数学，作者的研究方向是机器学习，并行计算如果你还想了解一点其他的可以看看他博客的其他文章

《美团推荐算法实践》

介绍: 美团推荐算法实践，从框架，应用，策略，查询等分析

《Deep Learning for Answer Sentence Selection》

介绍: 深度学习用于问答系统答案句的选取

《Learning Semantic Representations Using Convolutional Neural Networks for Web Search 》

介绍: CNN用于WEB搜索，深度学习在文本计算中的应用

《Awesome Public Datasets》

介绍: Awesome系列中的公开数据集

《Search Engine & Community》

介绍: 一个学术搜索引擎

《spaCy》

介绍: 用Python和Cython写的工业级自然语言处理库，号称是速度最快的NLP库，快的原因一是用Cython写的，二是用了个很巧妙的hash技术，加速系统的瓶颈，NLP中稀松特征的存取

《Collaborative Filtering with Spark》

介绍:Fields是个数学研究中心,上面的这份ppt是来自Fields举办的活动中Russ Salakhutdinov带来的《大规模机器学习》分享

《Topic modeling 的经典论文》

介绍: Topic modeling 的经典论文,标注了关键点

《Move Evaluation in Go Using Deep Convolutional Neural Networks》

介绍: 多伦多大学与Google合作的新论文，深度学习也可以用来下围棋，据说能达到六段水平

《机器学习周刊第二期》

介绍: 新闻，paper,课程，book，system,CES,Roboot，此外还推荐一个深度学习入门与综述资料

《Learning more like a human: 18 free eBooks on Machine Learning》

介绍: 18 free eBooks on Machine Learning

《Recommend :Hang Li Home》

介绍:Chief scientist of Noah's Ark Lab of Huawei Technologies.He worked
at the Research Laboratories of NEC Corporation during 1990 and 2001
and Microsoft Research Asia during 2001 and 2012.Paper

《DEEPLEARNING.UNIVERSITY – AN ANNOTATED DEEP LEARNING BIBLIOGRAPHY》

介绍: DEEPLEARNING.UNIVERSITY的论文库已经收录了963篇经过分类的深度学习论文了，很多经典论文都已经收录

《MLMU.cz - Radim Řehůřek - Word2vec & friends (7.1.2015)》

介绍: Radim Řehůřek(Gensim开发者)在一次机器学习聚会上的报告，关于word2vec及其优化、应用和扩展，很实用.国内网盘

《Introducing streaming k-means in Spark 1.2》

介绍:很多公司都用机器学习来解决问题，提高用户体验。那么怎么可以让机器学习更实时和有效呢？Spark MLlib 1.2里面的Streaming K-means，由斑马鱼脑神经研究的Jeremy Freeman脑神经科学家编写，最初是为了实时处理他们每半小时1TB的研究数据，现在发布给大家用了。

《LDA入门与Java实现》

介绍: 这是一篇面向工程师的LDA入门笔记，并且提供一份开箱即用Java实现。本文只记录基本概念与原理，并不涉及公式推导。文中的LDA实现核心部分采用了arbylon的LdaGibbsSampler并力所能及地注解了，在搜狗分类语料库上测试良好，开源在GitHub上。

《AMiner - Open Science Platform》

介绍: AMiner是一个学术搜索引擎，从学术网络中挖掘深度知识、面向科技大数据的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识点；支持专家搜索、机构排名、科研成果评价、会议排名。

《What are some interesting Word2Vec results?》

介绍: Quora上的主题，讨论Word2Vec的有趣应用，Omer Levy提到了他在CoNLL2014最佳论文里的分析结果和新方法，Daniel Hammack给出了找特异词的小应用并提供了(Python)代码

《机器学习公开课汇总》

介绍: 机器学习公开课汇总,虽然里面的有些课程已经归档过了，但是还有个别的信息没有。感谢课程图谱的小编

《A First Course in Linear Algebra》

介绍: 【A First Course in Linear Algebra】Robert Beezer 有答案有移动版、打印版使用GNU*文档协议引用了杰弗逊1813年的信

《libfacedetection》

介绍:libfacedetection是深圳大学开源的一个人脸图像识别库。包含正面和多视角人脸检测两个算法.优点:速度快(OpenCV haar+adaboost的2-3倍), 准确度高 (FDDB非公开类评测排名第二），能估计人脸角度。

《Inverting a Steady-State》

介绍:WSDM2015最佳论文把马尔可夫链理论用在了图分析上面，比一般的propagation model更加深刻一些。通过全局的平稳分布去求解每个节点影响系数模型。假设合理（转移受到相邻的影响系数影响）。可以用来反求每个节点的影响系数

《机器学习入门书单》

介绍:机器学习入门书籍，具体介绍

《The Trouble with SVMs》

介绍: 非常棒的强调特征选择对分类器重要性的文章。情感分类中，根据互信息对复杂高维特征降维再使用朴素贝叶斯分类器，取得了比SVM更理想的效果，训练和分类时间也大大降低——更重要的是，不必花大量时间在学习和优化SVM上——特征也一样no free lunch

《Rise of the Machines》

介绍:CMU的统计系和计算机系知名教授Larry Wasserman 在《机器崛起》,对比了统计和机器学习的差异

《实例详解机器学习如何解决问题》

介绍:随着大数据时代的到来，机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界，机器学习都是一个炙手可热的方向，但是学术界和工业界对机器学习的研究各有侧重，学术界侧重于对机器学习理论的研究，工业界侧重于如何用机器学习来解决实际问题。这篇文章是美团的实际环境中的实战篇

《Gaussian Processes for Machine Learning》

介绍:面向机器学习的高斯过程，章节概要：回归、分类、协方差函数、模型选择与超参优化、高斯模型与其他模型关系、大数据集的逼近方法等,微盘下载

《FuzzyWuzzy: Fuzzy String Matching in Python》

介绍:Python下的文本模糊匹配库，老库新推，可计算串间ratio(简单相似系数)、partial_ratio(局部相似系数)、token_sort_ratio(词排序相似系数)、token_set_ratio(词集合相似系数)等github

《Blocks》

介绍:Blocks是基于Theano的神经网络搭建框架，集成相关函数、管道和算法，帮你更快地创建和管理NN模块.

《Introduction to Machine Learning》

介绍:机器学习大神Alex Smola在CMU新一期的机器学习入门课程”Introduction to Machine
Learning“近期刚刚开课，课程4K高清视频同步到Youtube上，目前刚刚更新到 2.4 Exponential
Families,课程视频playlist,
感兴趣的同学可以关注，非常适合入门.

《Collaborative Feature Learning from Social Media》

介绍:用社交用户行为学习图片的协同特征，可更好地表达图片内容相似性。由于不依赖于人工标签(标注)，可用于大规模图片处理，难在用户行为数据的获取和清洗；利用社会化特征的思路值得借鉴.

《Introducing practical and robust anomaly detection in a time series》

介绍:Twitter技术团队对前段时间开源的时间序列异常检测算法(S-H-ESD)R包的介绍，其中对异常的定义和分析很值得参考，文中也提到——异常是强针对性的，某个领域开发的异常检测在其他领域直接用可不行.

《Empower Your Team to Deal with Data-Quality Issues》

介绍:聚焦数据质量问题的应对，数据质量对各种规模企业的性能和效率都至关重要，文中总结出(不限于)22种典型数据质量问题显现的信号，以及典型的数据质量解决方案(清洗、去重、统一、匹配、权限清理等)

《中文分词入门之资源》

介绍:中文分词入门之资源.

《Deep Learning Summit, San Francisco, 2015》

介绍:15年旧金山深度学习峰会视频集萃,国内云盘

《Introduction to Conditional Random Fields》

介绍:很好的条件随机场(CRF)介绍文章,作者的学习笔记

《A Fast and Accurate Dependency Parser using Neural Networks》

介绍: 来自Stanford，用神经网络实现快速准确的依存关系解析器

《Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning》

介绍:做深度学习如何选择GPU的建议

《Sparse Linear Models》

介绍: Stanford的Trevor Hastie教授在H2O.ai Meet-Up上的报告，讲稀疏线性模型——面向“宽数据”(特征维数超过样本数)的线性模型,13年同主题报告、讲义.

《Awesome Computer Vision》

介绍: 分类整理的机器视觉相关资源列表，秉承Awesome系列风格，有质有量!作者的更新频率也很频繁

《Adam Szeidl》

介绍: social networks course

《Building and deploying large-scale machine learning pipelines》

介绍: 大规模机器学习流程的构建与部署.

《人脸识别开发包》

介绍: 人脸识别二次开发包，免费，可商用，有演示、范例、说明书.

《Understanding Natural Language with Deep Neural Networks Using Torch》

介绍: 采用Torch用深度学习网络理解NLP，来自Facebook 人工智能的文章.

《The NLP Engine: A Universal Turing Machine for NLP》

介绍: 来自CMU的Ed Hovy和Stanford的Jiwei Li一篇有意思的Arxiv文章,作者用Shannon Entropy来刻画NLP中各项任务的难度.

《TThe Probabilistic Relevance Framework: BM25 and Beyond》

介绍: 信息检索排序模型BM25(Besting Matching)。1）从经典概率模型演变而来
2）捕捉了向量空间模型中三个影响索引项权重的因子：IDF逆文档频率；TF索引项频率；文档长度归一化。3）并且含有集成学习的思想：组合了BM11和BM15两个模型。4）作者是BM25的提出者和Okapi实现者Robertson.

《Introduction to ARMA Time Series Models – simplified》

介绍: 自回归滑动平均(ARMA)时间序列的简单介绍，ARMA是研究时间序列的重要方法，由自回归模型（AR模型）与滑动平均模型（MA模型）为基础“混合”构成.

《Encoding Source Language with Convolutional Neural Network for Machine Translation》

介绍: 把来自target的attention signal加入source encoding CNN的输入，得到了比BBN的模型好的多neural network joint model

《Spices form the basis of food pairing in Indian cuisine》

介绍: 揭开印度菜的美味秘诀——通过对大量食谱原料关系的挖掘，发现印度菜美味的原因之一是其中的味道互相冲突，很有趣的文本挖掘研究

《HMM相关文章索引》

介绍: HMM相关文章

《Zipf's and Heap's law》

介绍: 1)词频与其降序排序的关系,最著名的是语言学家齐夫(Zipf,1902-1950)1949年提出的Zipf‘s
law,即二者成反比关系. 曼德勃罗(Mandelbrot,1924- 2010)引入参数修正了对甚高频和甚低频词的刻画 2)Heaps'
law: 词汇表与语料规模的平方根(这是一个参数,英语0.4-0.6)成正比

《I am Jürgen Schmidhuber, AMA》

介绍: Jürgen Schmidhuber在Reddit上的AMA(Ask Me Anything)主题，有不少RNN和AI、ML的干货内容，关于开源&思想&方法&建议……耐心阅读，相信你也会受益匪浅.

《学术种子网站：AcademicTorrents》

介绍: 成G上T的学术数据，HN近期热议话题,主题涉及机器学习、NLP、SNA等。下载最简单的方法，通过BT软件，RSS订阅各集合即可

《机器学习交互速查表》

介绍: Scikit-Learn官网提供，在原有的Cheat Sheet基础上加上了Scikit-Learn相关文档的链接，方便浏览

《A Full Hardware Guide to Deep Learning》

介绍: 深度学习的全面硬件指南，从GPU到RAM、CPU、SSD、PCIe

《行人检测(Pedestrian Detection)资源》

介绍:Pedestrian Detection paper & data

《A specialized face-processing network consistent with the representational geometry of monkey face patches》

介绍:
【神经科学碰撞人工智能】在脸部识别上你我都是专家，即使细微的差别也能辨认。研究已证明人类和灵长类动物在面部加工上不同于其他物种，人类使用梭状回面孔区（FFA）。Khaligh-Razavi等通过计算机模拟出人脸识别的FFA活动，堪称神经科学与人工智能的完美结合。

《Neural Net in C++ Tutorial》

介绍: 神经网络C++教程,本文介绍了用可调节梯度下降和可调节动量法设计和编码经典BP神经网络，网络经过训练可以做出惊人和美妙的东西出来。此外作者博客的其他文章也很不错。

《How to Choose a Neural Network》

介绍:deeplearning4j官网提供的实际应用场景NN选择参考表，列举了一些典型问题建议使用的神经网络

《Deep Learning (Python, C/C++, Java, Scala, Go)》

介绍:一个深度学习项目,提供了Python, C/C++, Java, Scala, Go多个版本的代码

《Deep Learning Tutorials》

介绍:深度学习教程

《自然语言处理的发展趋势——访卡内基梅隆大学爱德华·霍威教授》

介绍:自然语言处理的发展趋势——访卡内基梅隆大学爱德华·霍威教授.

《FaceNet: A Unified Embedding for Face Recognition and Clustering》

介绍:Google对Facebook DeepFace的有力回击—— FaceNet，在LFW(Labeled Faces in the Wild)上达到99.63%准确率(新纪录)，FaceNet embeddings可用于人脸识别、鉴别和聚类.

《MLlib中的Random Forests和Boosting》

介绍:本文来自Databricks公司网站的一篇博客文章，由Joseph Bradley和Manish
Amde撰写，文章主要介绍了Random Forests和Gradient-Boosted
Trees（GBTs）算法和他们在MLlib中的分布式实现，以及展示一些简单的例子并建议该从何处上手.中文版.

《Sum-Product Networks(SPN) 》

介绍:华盛顿大学Pedro Domingos团队的DNN，提供论文和实现代码.

《Neural Network Dependency Parser》

介绍:基于神经网络的自然语言依存关系解析器(已集成至Stanford CoreNLP)，特点是超快、准确，目前可处理中英文语料，基于《A Fast and Accurate Dependency Parser Using Neural Networks》思路实现.

文／ty4z2008（简书作者）
原文链接：http://www.jianshu.com/p/b73b6953e849
著作权归作者所有，转载请联系作者获得授权，并标注“简书作者”。