3 机器学习
随着2006年以Hadoop为代表的大数据技术的蓬勃兴起,解决了数据库时代的数据存储和处理能力的不足限制;云计算技术的大规模应用,比如Amazon和阿里云为代表的云计算厂商,将处理能力和计算能力的成本大大降低,从而让大规模的集群计算系统变得非常廉价;从而将针对数据的分析拓展至全量的数据分析,而非数据抽样。另外一个方面是将从前在数据挖掘时代无法应用的算法和思路变成了可能。这个时代ML(Machine Learning)逐渐取代数据挖掘,成为火热的关键词。
那机器学习与数据挖掘的关系是什么呢? 机器学习是建立在数据挖掘技术之上发展而来,结合大数据技术(Hadoop, MapReduce, Spark/Storm等),逐步开发和应用了若干新的分析方法逐步演变而来形成的;这两个领域彼此之间交叉渗透,彼此都会利用对方发展起来的技术方法来实现业务目标,数据挖掘的概念更广一下,机器学习只是数据挖掘领域中的一个新兴分支与细分领域,只不过基于大数据技术让其逐渐成为了当下显学和主流。
以下是摘在百度知道的定义:机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
上述定义的核心是尝试基于计算机系统来模拟人类的学习行为,从而获取新的知识与技能;换句话说,机器学习可以发展我们人类未曾发现的知识和规律,学习到人类从未掌握的技能;这是一个非常惊人的进步,超越人类的认知极限,从而引领人类进入了一个崭新的机器时代。机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。在我们当下的生活中,语音输入识别、手写输入识别等技术,识别率相比之前若干年的技术识别率提升非常巨大,达到了将近97%以上,大家可以在各自的手机上体验这些功能,这些技术来自于机器学习技术的应用。Google Translate技术据说已经达到了类比人工翻译的准确程度,兼具“信达雅”的特性,能做到这一点就来自于Google对其进行了大量语言学习的训练而成的。
机器学习主要以监督学习(supervised learning)、无监督学习(unsupervised learning)、半监督学习和强化学习等形式。下面我们简要介绍以下这几种学习形式的基本内容:
监督学习是 对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。监督学习是训练神经网络和决策树的最常见技术。这两种技术(神经网络和决策树)高度依赖于事先确定的分类系统给出的信息。
在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。
在此学习方式下,介于监督学习和半监督学习之间。输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据 来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预 测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。
在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈 到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)。
以上几种学习形式,目前使用最多的是监督学习和非监督学习模式,在自然语言处理(NLP),图形图像识别等领域应用甚广。强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。
此类的技术解决方案在Python, R都提供了相应的机器学习的算法实现,比如scikit-learn和R中的内置算法实现。
4 深度学习(Deep Learning)
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。晦涩难懂的概念,略微有些难以理解,但是在其高冷的背后,却有深远的应用场景和未来。
那深度学习和机器学习是什么关系呢? 深度学习是实现机器学习的一种方式和一条路径。其核心是模拟和学习人类大脑的神经元工作方式,比如其按特定的物理距离连接;而深度学习使用独立的层、连接,还有数据传播方向,比如最近大火的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能,让机器认知过程逐层进行,逐步抽象,从而大幅度提升识别的准确性和效率。
到了当下,经过深度学习技术训练的机器在识别图像时比人类更好,比如识别猫、识别血液中的癌细胞特征、识别MRI扫描图片中的肿瘤。谷歌AlphaGo学习围棋等等领域,已经超越了人类目前的认知和能力极限。
主要的实现框架包括有:Google的Tensorflow, 源自加州伯克利分校的Caffe, 诞生于蒙特利尔理工学院的Python实现Theano, 来自facebook的Torch, Java版的深度学习框架DeepLearning4j等等不一而足。
5 人工智能(Artifical Intelligence, AI)
人工智能目前在业界是炙手可热,所有的互联网公司以及各路大迦们纷纷表态AI将是下一个时代的革命性技术,可与互联网、移动互联网时代的变更相媲美;AlphaGo在围棋领域战胜人类最顶尖的棋手让大众第一次直观认知到了AI的威力和强大,于是大家都不禁在思考到底什么是人工智能, 它将带给人类一个什么样的变化和未来?
1956年,在达特茅斯会议(Dartmouth Conferences)上,计算机科学家首次提出了“AI”术语之时,就设想是否有一天机器可以像人一样拥有意识(consciousness)、自我(Self)和心智(Mind),随着计算机工业和科学的飞速发展,曾经的幻想和遥不可及的设想已经可以看到变成现实的曙光。
那人工智能到底是什么呢? 笔者个人的理解是人工智能将学会人脑一样的思考、分析、推理和学习,具备人类相应的智商和独立思考能力;进而可能具备自我迭代和进化能力,帮助人类共同进行进化,极大提升目前人类社会的智能化程度。
正如我们曾经看到过的诸多科幻典型中所描述的各类场景,笔者个人也比较认同其中的某些负面的可能性,不如当机器具备类似人类的智能之后,机器智能和人类将如何相处? 如果发生冲突,人类何以控制机器智能,并引导人工智能按照人类的意志来发展? 人类是否有能力控制机器智能的运行机制?等等之类的问题只能有待未来的科学家们来解决。
深度学习、机器学习都是人工智能发展的重要领域,这些技术手段让人工智能从虚幻逐步变为现实,在带给人类诸多便利和大幅度的社会效率提升中,即将革命性地改变我们人类社会的进程发展。
6 总结
深度学习、机器学习的发展带了许多实际的商业应用,让虚幻的AI逐步落地,进而影响人类社会发展; 深度学习、机器学习以及未来的AI技术,将让无人驾驶汽车、更好的预防性治疗技术、更发达智能的疾病治疗诊断系统、更好的人类生活娱乐辅助推荐系统等,逐步融入人类社会的方方面面。
AI既是现在,也是未来,不再是一种科幻影像和概念,业界变成了人类社会当下的一种存在,不管人类是否喜欢或者理解,他们都将革命性地改变创造AI的我们人类自身;至于未来,没有人会知道会如何,会不会真得如Matrix中的人类最终被机器所篡养,不得而知;但有一点是确定的,人类孜孜以求的研究和发展,AI时代终将到来。
--------------------------------------- 罪恶的分割线--------------------------------
本文系CDSN的博主《木小鱼的笔记》个人原创,如无允许,请勿转载。如要转载,请保留原始链接和原作者信息,支持原创,尊重原创,让知识的世界更美好。
作者本人也维护了一个今日头条上的头条号:程序加油站,欢迎大家关注。