日前,2011年诺贝尔经济学奖得主、北大汇丰萨金特数量经济与金融研究所荣誉主任托马斯·萨金特(Thomas J. Sargent)教授主编的《萨金特数量经济与金融研究所时讯》(第四期)正式上线。其中,萨金特教授在其为时讯撰写的独家首发文章《人工智能的来源》中,分享了对人工智能与机器学习的理解与思考,以下为全文内容。
托马斯·萨金特
作为一个并不全面的见证者,我在本文中描述了人工智能与机器学习是如何被发明的,并列举了该领域的重要人物以及他们的思想。
1
简介
这篇文章与人类、人工智能以及学习相关。我所谓的人工是指“非人类”。在描述人工智能和机器学习之前,为了表达我对自然和人工智能的理解,我将首先通过描述有智识的人类通过结合先天与后天技能来完成的两类重要活动, 即识别模式和做出选择。智能的其他方面是对时间和空间的认识,以及对其他人的同情和共鸣。一代又一代的父母把从上一辈传承的技能和观点,以及自己学到的新思想传给孩子。在描述了伽利略·伽利雷(Galileo Galilei)和查尔斯·达尔文(Charles Darwin)如何将他们的先天才能与教科书上的知识相结合,继而创造出科学上的突破之后,我将讲述现代研究人员如何设计出能够识别模式和做出选择的计算机程序⊃1;。
我在这篇文章里提及了许多“树”,即各种概念和技术,这对普通读者来说可能是新事物,但我希望我对机器学习这片“森林”的描述是清楚的。若有读者好奇地想了解更多复杂的“树”,我建议他们使用专业在线搜索引擎或查看本文结尾处参考文献中的内容。
2
人类智能
我从认知心理学家史蒂芬·平克(Steven Pinker)的《白板》(The Blank Slate)第13章的内容开始讲。平克这本书(2003)的第13章题为《走出我们的深渊》。如果你是高中生或大一新生,或是喜欢思考教育的目的,推荐你阅读这一章。基于对人类认知障碍的理解,史蒂芬·平克对在高中和大学应该学习什么内容以及为什么学习提供了建议。他在开章描述了进化使我们自然擅长的一些技能,以及我们必须借助学习才能获取的其他技能。
在人类10万年的历史和史前史中,进化未赋予人类的那些技能其实并不重要。但是,现代生活使一些进化未赋予我们的东西变得前所未有地重要。平克总结出了四个此类学科。
1. 物理学 关于重量、时间、空间、运动、能量、热和光的理论。
2. 生物学 关于生命、出生和死亡的理论。
3. 统计学 描述不确定性以及识别和解释相对频率的方法。
4. 经济学 关于工作、生产、分配、价格和数量的描述。
在现代生活中,只有了解了这四个领域才能做出明智的个人和公共决策。但我们的“直觉”经常让我们在这些领域中犯错。出于行文目的,暂且将“直觉”定义为我们进化出来的能够快速理解各种情况的思维方式。它的同义词或许是“常识”,即我们本能地就能够理解的东西。史蒂芬·平克描述了我们自然、直觉的理论在这四个领域中是如何将我们引入歧途的,只有通过受教育才能改进。
平克列举了一些四个领域相关的绝佳例子,以说明我们的常识和直觉并不能帮助我们理解现代物理学。根据理查德·费曼(Richard Feynman)和其他杰出的物理学家的说法,“常识”难以帮助我们理解广义相对论和量子力学。平克讲述了我们如何进化出统计计算的能力,这种能力在过去靠狩猎和采集为生时很有帮助,它让我们能够计算一些事件出现的几率。但是,相比从前,今日的重要风险事件发生的几率非常低。而我们的自然禀赋不擅长应对小概率事件。因为在公共决策中无法正确平衡低概率风险事件的成本和收益,我们付出过昂贵的代价。平克描述了进化如何给了我们的祖先一套关于生产和交换的经济理论,然而这些理论并没能让我们理解劳动分工、分配、市场、中间商、中介、稳定市场的投机行为和利润。事实上,我们天生就误解了这些东西,在反复发生的针对中间商和贸易商、投机者和流动性提供者的征用和大*中,经常出现悲惨的后果,而受害者往往是少数民族成员。
这些认知缺陷为平克在该书第13章呼吁重新设计课程的建议提供了理论基础。平克将教育描述为一种补偿我们先天的认知限制、利用我们先天学习能力的技术。他呼吁对学术课程进行大刀阔斧的改革,传授那些能帮助我们在现代社会享受生活和做出正确决定的技能:生物学、统计学和经济学。他也承认,多教授这些科目意味着少教授其他科目。
2.1
人工智能和我们天生的认知极限
通过阅读第13章,我们可以了解人类是如何寄希望于“人工智能”来补充并超越与生俱来的自然人类智能。
这里潜藏着一个悖论,即创造人工智能和机器学习的主要技术工具来自物理学、生物学、统计学和经济学,而这些领域正是我们先天认知有限的。换句话说,我们试图在自己天生不擅长的领域创造人工智能和机器学习。机器学习和人工智能的早期先驱和实践者通过透彻地学习以及富有想象力地使用现有的最优化分析技术,来弥补他们在自然认知方面的不足。
3
两位机器学习的先驱
3.1
伽利略
Galileo Galilei
意大利物理学家、数学家、天文学家及哲学家
因为提倡地球围绕太阳旋转,17世纪初伟大的意大利数学家、科学家、物理学家、天文学家伽利略(1564-1642)最终被宗教裁判所逮捕。在被逮捕的许多年前,伽利略从事了一项研究,我认为这项研究演绎了“机器学习”方法的本质。伽利略(1)设计并进行实验来收集数据;(2)反复观察数据,试图发现模式;(3)通过拟合一个函数来减少数据的维度;(4)将该函数解释为自然界的一般规律。伽利略的策略为机器学习和人工智能的意义提供了一个绝佳例子,也许是第一个例子。
自然地,我说的是伽利略的“斜面实验”以及他对数据进行的处理和降维。伽利略试图发现控制落体动力的自然规律。也许你在想“这很容易,只要应用艾萨克·牛顿(Isaac Newton)的万有引力定律就行了”。不要太着急下定论:牛顿这时候还没有出生呢。当时被广为接受的主流理论是亚里士多德(Aristotle)在2000年前宣称的:较重的物体比较轻的物体下落得快。
伽利略想用实证方法来研究亚里士多德的理论。为什么不直接扔下不同重量的球,以便测量它们下落的速度呢?伽利略无法这样做,因为不论多重的球落下的速度都比当时的钟能准确测量的速度快得多。因此,伽利略决定建造不同角度的光滑斜面,并调整角度,使落下的球的速度足够慢,这样他就可以用他拥有的时钟测量它们沿平面的移动速度。对于一个长度l和高度h的平面,比率
决定了平面的角度。伽利略扔下一个球,仔细测量了球沿平面移动的距离d,将之计作球被扔下后经过的时间t的函数。他做了一个有两栏的表格,其中记录了ti 和di(i = 1,...),n为他在每个实验中的n个测量时间。对于一个给定的实验,他将di和ti绘制在一起。他对各种不同重量的球进行了实验,设置了不同的l和h (即斜面的不同角度)。然后他凝视自己记录的图表,发现一个惊人的现象:在所有的图表中,行进的距离与经过的时间的平方成正比,与球的重量和平面的角度无关。他推断出一个公式:
请注意,出人意料的是,球的重量不在右边的函数中。因此,球的下落速度显然是与它的重量是无关的。因此,通过对他的实验数据进行函数拟合,伽利略同时完成了数据降维和概括。他发现了一个自然法则,这个法则成为50年后艾萨克·牛顿思想的一个重要启发。
伽利略的斜面实验具有现代机器学习和人工智能的所有要素。他一开始不知道世界是如何运作的,也没有一个好的理论。他所做的完全是无理论的。所以他进行了一系列的实验,收集了数据表,每个实验一个表,以球的重量以及斜面的长度l和高度h为索引。他从许多数据表中推导 (即“拟合”)出一个函数,结果发现这个函数只由一个新数字决定,即“参数”。⊃2;
我并不完全理解是什么启发了伽利略去设计他的实验,收集那些测量数据,并通过拟合函数来减少测量数据的维度。不过我确实知道伽利略拥有的工具,以及本可以帮助他、但他却没有的工具。尤其是,他不知道微分和积分计算——几十年后,这些工具才被费马(Fermat)、牛顿和莱布尼茨(Leibniz)发明出来。但伽利略确实非常了解几何和代数,也十分熟悉欧几里得(Euclid)和阿基米德(Archimedes)。如果没有这些工具,纯粹的灵感和对亚里士多德理论的怀疑态度是远远不够的。⊃3;
3.2
达尔文
Charles Robert Darwin
英国的博物学家、生物学家、进化论的奠基人
下一个故事有关经济理论在达尔文(1809 - 1882)的“自然选择物种进化”学说中所起的作用。哈耶克(Hayek)(2011 年,附录 B)引用了西蒙·N·巴顿(Simon N. Patton)于1899 年发表的一段声明:“......正如亚当·斯密(Adam Smith)是最后一个道德家和第一个经济学家一样,达尔文是最后一个经济学家和第一位生物学家。”
达尔文使用原始经验主义和降维来构建他的理论。他不知道基因是什么,也不知道DNA是什么。他“知道”的是观察他培育的鸽子和自然界的动植物所收集来的一个庞大的数据集。仅通过研究鸽子的数据,他就推断出了三个基本原则中的两个。
1.自然变异
2.新变化的统计继承
作为一名鸽子育种者,达尔文利用这两个原则来选择理想的性状,然后依靠统计遗传来培育新的鸽子品种。幼鸽从父母那里获得了一些特征。“查尔斯·达尔文的选择”,而不是自然选择指导其育种。有很长一段时间,达尔文并不知道在自然中选择的原理是什么。然后,他阅读了托马斯·马尔萨斯(Thomas Malthus)的《人口原理对社会未来进步的影响》。马尔萨斯描写了一场斗争,这种斗争是因人口繁殖速度超过食物产量增速而引发的。在此前提下,食物的可得性制约着人口数量,个体需要为生存斗争。马尔萨斯这方面的论证为达尔文提供了他缺失的那块拼图:从生存斗争中产生的自然选择。出生的婴儿数量超过了食物所能喂养的数量。达尔文(1859)的引言部分将其第三个基本原则归功于马尔萨斯。
3.竞争选择——为了生存的斗争
一些杰出的博弈论者和经济学家现在经常使用进化论作为经济和社会动态的来源。也许这些人认为他们从达尔文那里得到了启发。但实际上达尔文理论的一个重要部分是从经济学家那里得到的。正如哈耶克(2011 年版,附录 A)指出的,达尔文1838年对亚当·斯密的研究为他提供了生物进化自然选择理论的一个关键组成部分。哈耶克(2011)还指出,文化进化论早在1800年之前就已被经济学家和社会学家广泛接受。
达尔文的研究策略是一个将庞大的数据集降维,以提取基于三个基本原则的低维模型的很好的例子。数据收集,运用三个基本原则进行数据降维,最后进行理论概括:多么非凡的研究策略!
像伽利略一样,达尔文也不是从零开始。他在生物学、地质学和经济学方面都很博学。对这些领域既有知识的深刻理解是他能够突破已知、进行创新的基础。他是一个“宏观”的人,因为他的理论的前两个支柱,即新特征的变异和继承,并没有“微观基础”。对于在他的三个支柱理论下,需要多长时间,生物的进化才能够与古生物学与生物学已知的证据相符合,他也说得很模糊。⁴
4
人工智能
上文都在谈论人类的智慧和灵感,现在让我们转向人工智能或机器学习。它是什么呢?
我所说的人工智能是指模仿人类完成一些“智能”事情的计算机程序。“机器学习”主要是通过使用微积分和统计来完成模式识别。参照伽利略运用斜面实验测量下落物体速度的方法,设计者开发出能够进行机器学习和人工智能的计算机芯片和程序。因此,将函数视为“如果-那么”语句的集合。将“如果”部分想象为函数中的横坐标 x,并将“那么”部分想象为y纵坐标。使用计算机识别模式涉及:(1)将数据划分为x和y部分,(2)猜测f的函数形式,然后 (3)使用统计的方法从不同的x和y数据中推断f。“统计学”这门学科提供了用于推断或“拟合”函数f的工具。
举一个简单的例子。假设在地球上的给定位置,您在一年中的每一天都记录了从日出到日落的“白天”长度,在x轴上按照1到365记录天数,在y轴上记录从日出到日落的时长,制作一个以x和y为两列的表格。该表有365乘以2等于730个数字。现在绘制并凝视它们。猜测函数y=cos(α +βx )
也许能很好地总结这些数据。使用微积分求使函数拟合得很好的两个参数α,β的值,它们最小化了
你会发现这个函数拟合得很好(尽管不完美)。通过总结数据(也可称为进行“数据压缩”或“数据缩减”),我们得以找出了一个经验法则(一个函数)来“概括”我们的发现,并可以使用这个法则来预测365天样本以外的 “白天”时长。
5
人工智能工具
机器学习和人工智能的核心方法来自以下学科:⁵
1.物理学
2.生物学
3.统计学
4.经济学
接下来我们将逐一分析这四个学科。
5.1
物理学
欧拉(Euler)、拉格朗日(Lagrange)和汉密尔顿(Hamilton)在18世纪和19世纪的研究成果扩充和完善了运用微积分最优化时变函数的积分方法。这为21世纪哈密顿·蒙·卡特罗(Hamiltonian Monte Carlo)的模拟技术奠定了基础,该技术继而推动了复杂的贝叶斯估计和机器学习的技术发展。克劳修斯(Clausius)、玻尔兹曼(Boltzmann)和吉布斯(Gibbs)在19世纪创造了用统计学来描述热力学的概念。他们根据熵定义了热力学第二定律,熵是似然比的期望值,即一个概率分布与另一个概率分布的比率。其中一个概率分布是一个平坦的均匀分布,它在统计上代表完全无序,另一个分布则在精确的、统计学意义上代表“有序”。在20世纪末和21世纪初,熵为许多机器学习算法提供了一种测量拟合模型的概率分布与数据经验分布之间差异的方法。保罗·萨缪尔森 (Paul Samuelson) (1947) 和他的同事们将这些技术和其他技术从数学物理学引入经济学,这将为人工智能和机器学习更多工具的发展奠定基础。
5.2
数学生物学
生物学从时间和空间上研究物种的繁殖和变异模式。模式可以从“宏观”和“微观”层面上检测,这取决于研究的单位——个人、动物、DNA、RNA,或组成它们那些更小的分子。生物学的数学理论(例如,费尔德曼(Feldman,2014) 和费尔森斯坦(Felsenstein,1989)通过以随机差分或微分方程的形式构建动态系统来将这些模式构成数学体系。在微观层面,主要涉及将DNA编码为二进制字符串,以便分析师在该字符串上通过切割和重组进行突变和有性生殖的数学运算。例如,参见霍兰德(Holland,1987)。
5.3
统计学
现代数理统计认为“概率”有两种可能的含义:⁶
• 频率论者认为,概率是在观察一个非常大的独立且同分布的随机变量样本后可以预期的相对频率。
• 贝叶斯解释,概率是关于未知隐藏“状态”或“参数”的不确定性的主观表达。
现代统计学运用一系列工具来:(1) 制定一个函数集,这些函数的具体形式取决于一系列参数,有时参数还取决于更高层的超参数;(2) 从样本中推断或“估算”这些参数;(3) 以一个理性人的角度,描述这些推断的不确定性;(4)使用这些拟合函数的概率版本进行“样本外”预测。这些机器学习的基本技术依赖于对微积分的应用,正如我们之前提过,伽利略当时并没有这些工具。
5.4
经济学
经济学是研究人类群体如何有目的地利用和分配稀缺资源的学科。现代经济理论是自洽环境中的多人决策理论。在一致的经济模型中的抽象智能人是“理性的”,因为他们处理有限优化问题皆基于他们对自身所处环境的共同、正确的理解。⁷ 这种多人决策理论的两个主要类别是⁸
• 博弈论
• 一般均衡理论
这些理论中的主要因素和内容包括
• 约束
• 不确定性
• 去中心化和并行优化
• 交易网络的账本
• 价格
• 竞争
在这些模型中,一个个体的决策规则构成了其他个体选择问题的约束集的一部分。这种约束通过模型的 “均衡条件”产生。个体约束优化问题的解中,可以导出个人价值,其中包含用以分配资源的有用信息。
这些经济模型描述了“并行处理” 和去中心化的决策过程。一个被称为“均衡”的安排有助于调和不同个体之间的自私决策以及物理资源的限制。严格的均衡概念在这两个主流框架中占据主导地位。定义均衡是一件事,计算均衡则是另一回事。因此,著名的经济理论家们多年来一直在与维度的诅咒斗争、寻求计算竞争均衡分配和价格体系的可靠方法。对这一事业做出了里程碑意义的贡献的经济理论家有艾罗与赫维克兹(Arrow and Hurwicz,1958)、艾罗(Arrow et al.,1959)、艾罗(Arrow,1971)、二阶堂与宇泽(Nikaido and Uzawa,1960)以及斯卡夫(Scarf,1967)、斯卡夫(Scarf et al.,2008)。这些算法运用了计算方案,追踪个人和社会价值量,以及人们想要的商品和活动的数量与社会安排之间的差距。
计算均衡的研究工作最终发现,均衡的计算与有限理性个体向均衡的收敛之间具有密切联系。布瑞与克雷普斯(Bray and Kreps,1987)以及马赛特与萨金特(Marcet and Sargent,1989)提出了“在均衡中学习”和“学习均衡”之间的重要区别。马赛特与萨金特(Marcet and Sargent,1989)和萨金特(Sargent et al.,1993)通过使用随机近似的数学方法(例如,见格拉迪夫(Gladyshev,1965))来研究向理性预期均衡的收敛。据我所知,关于随机近似的最初工作始于霍特林(Hotelling,1941)、傅利曼与萨维奇(Friedman and Savage,1947)。他们试图构建一种统计抽样方法,来精确地解出一个未知函数在给定点的最大值。⁹
舒比克(Shubik,2004)和巴克(Bak et al. ,1999)的相关工作构建了一些博弈,他们利用这些博弈来思考价格制定者对均衡过程的促进作用。(在一般均衡模型中,只有价格接受者,没有价格制定者)。舒比克的工作运用了他对一个课题的专业知识,这个课题存在于一般均衡理论和博弈论的夹缝中,对机器学习和人工智能有重要意义,它就是:
• 货币理论
本着舒比克(Shubik,2004)的精神,思考货币理论的一个好方法是,注意到它的目的是解释均衡价格向量是如何被实际生活在一般均衡模型中的个体设定的。艾罗和德布鲁(Debreu)的经典一般均衡模型描述了均衡价格向量的特性,但对谁来设定这个价格向量以及如何设定却保持沉默。相反,一个模型之外的“神灵”神秘地宣布了一个价格向量,同时出清了所有的市场。一个均衡价格向量保证了每个个体的预算约束得到满足。在一般均衡模型中,贸易是多边的,预算约束在一个中心化的账户中得到协调。相反,货币理论是关于一个分散的系统,该系统中的人们只是偶尔在一系列双边会面中见面,并通过使用“交换媒介”交换商品和服务。交换媒介可以是耐用金属(金或银)、代币(便士、纸质“美元”或“英镑”)、流通的债务凭证,或者银行、清算所或*银行的账目条目。奥斯特罗伊与斯塔(Ostroy and Starr,1974)、奥斯特罗伊与斯塔(Ostroy and Starr,1990),以及最近的汤森(Townsend,2020)总结了该流派的研究。加密货币理论是这些研究的直系后代。
我再介绍一下博弈研究对机器学习的贡献。几十年来,应用经济学家已经构建了计算博弈均衡的算法,支撑这些计算的关键工具包括逆向归纳法(动态规划)和树状搜索。由于要研究的可能状态的维度呈指数增长,减少要研究状态的数量对于在近似均衡方面取得进展至关重要。在这方面,minimax算法和α-β剪枝搜索算法是主要的方法,可参考克努斯与摩尔(Knuth and Moore,1975)的著作和,可以了解α-β剪枝搜索的描述,并看到相应的计算系统和“适者生存”的想法。一条相关的研究路线研究了一群天真地基于对手过去的行动进行优化的玩家是否会收敛到纳什均衡。可参见蒙德勒与沙普利(Monderer and Shapley,1996)、霍夫鲍尔与桑德霍尔姆(Hofbauer and Sandholm,2002)、福斯特与杨(Foster and Young,1998)、弗得伯格(Fudenberg et al.,1998)。当收敛成立时,这种“虚构游戏”算法提供了一种计算均衡的方法,可参见兰伯特三世(Lambert Iii et al. ,2005)。
5.5
约翰·霍兰德(John Holland)在约1985年提出的人工智能愿景
John Henry Holland
美国科学家、复杂理论和非线性科学的先驱、遗传算法之父
著名的计算机科学家约翰·霍兰德⊃1;⁰是一位先驱者。他结合了我们提到的所有技术领域的思想,为生活在给定环境中的决策者构建了计算机模型。在这种环境中,决策者别无选择,只能按照艾罗(Arrow,1971)的思路,“在实践中学习”。霍兰德(Holland,1987)介绍了他的这一方法,马里蒙(Marimon et al.,1990)描述了在多人经济环境中的具体应用。霍兰德方法的一个重要部分是全局搜索算法,他称之为“遗传算法”。它通过用字符串表示函数的参数来搜索“崎岖不平的景观”,这些字符串可以被随机匹配成一对字符串,并进行切割和重新组合。这是霍兰德表示“性繁殖”的机械方式。这样的“遗传算法”包含了他所说的“分类器”系统的一部分。霍兰德的分类器系统包括:(1)一连串的“如果-那么”语句,其中一些必须相互竞争,以获得在线(即实时的)决策权。(2)一种将“如果-那么”语句编码为二进制字符串的方法,该字符串可以进行随机突变、切割和重组;(3)一个为单个“如果-那么”语句分配奖励和成本的计算系统;(4)破坏和创建新的“如果-那么”语句的程序,包括基于DNA切割和重组的随机突变和有性繁殖;以及(5)一种筛选出适合决策规则的竞争性斗争。霍兰德分类器系统已经被证明能够学会在动态环境中保持耐心,就像拉蒙·马里蒙(Ramon Marimon)总结的那样,在由霍兰德的人工智能个体组成的世界中,“耐心需要经验”。霍兰德分类器成功地计算出了一个动态经济模型的“稳定”纳什均衡,该模型的作者们事先并没有意识到这个均衡的存在,尽管事后,他们能够验证霍兰德分类器交给他们的“猜测”。可参见马里蒙(Marimon et al.,1990)的介绍。
5.6
当今的人工智能
DeepMind的计算机程序AlphaGo实现了一项了不起的成就,它成功地掌握了围棋游戏,并打败了人类围棋冠军选手。可参见王(Wang et al.,2016)。AlphaGo的创造者所采用的方法让我想起了美食的烹饪过程——在一把原料中加入一丁点另一种原料,品尝一下,再加入其他原料……在烹饪AlphaGo的成分中,包含了从动态规划、汤普森采样(见汤普森(Thompson,1933))和随机逼近(见霍特林(Hotelling,1941)、傅利曼与萨维奇(Friedman and Savage(1947))、α-β树搜索(见克努斯与摩尔(Knuth and Moore(1975))、Q-学习(见沃特金斯和达扬(Watkins and Dayan(1992));蒙特卡洛树搜索(见布朗(Browne et al.(2012))收集到的灵感。参数调整的经验法则选择是很重要的,它可以在“探索”和“利用”之间进行权衡(弗得伯格与克雷普斯(Fudenberg and Kreps,1993)、(Fudenberg and Kreps(1995)中也是如此论述的)。
机器学习的其他最新进展也引入了大量经济学和统计学的方法。计算最优运输问题(例如,佩雷(Peyr´e et al.(2019))使用丹齐格(Dantzig)、康托罗维奇(Kantorovich)和柯普曼斯(Koopmans)的线性程序来衡量理论概率和经验测量之间的差异。然后,它使用该衡量方法来构建一种高效的计算方式,以匹配数据和理论。经济学家霍特林(Hotelling,1930)用黎曼几何来表示统计模型的参数化系列。这个想法开启了计算信息几何学的先河,阿玛里(Amari,2016)将这种方法系统化了。
6
创造力的来源:模仿和创新
我描述了伽利略和达尔文是如何通过对前人研究结果和方法的掌握,并将其与前所未有的洞察力相结合,从而发现新的自然规律的。对先例的尊重,以及他们冒险超越的能力,是这两位天才的成果的突出特点。后来许多天才也采用了同样的方法,如电磁学的发现,以及富兰克林(Franklin)、戴维(Davy)、法拉第(Faraday)、麦克斯韦(Maxwell)、迈克尔逊(Michaelson)、莫利(Morley)、爱因斯坦(Einstein)的一系列发现。他们每个人都不是从“白板”(凑巧的是,这恰好是上述平克著作的标题)开始,而是从他们对前人的深刻理解和尊重开始的。每个人都看到了他们的前辈没有看到的东西,往往是因为他们采用了改进的观察或推理方法。通过运用法拉第不知道的数学,麦克斯韦组织了一个令人惊叹的统一和概括,将电磁动力学的法则减少到12个方程,而海维斯德又很快将它减少到四个方程。这四个方程为爱因斯坦的狭义相对论创造了条件。⊃1;⊃1;
看似与电磁学毫不相关的纯理论数学,却与后来电磁学的发现恰好吻合。为了将几何学转换为代数并写成函数,笛卡尔(Descartes)发明了一个坐标系统。50年后,牛顿和莱布尼茨利用笛卡尔坐标系发明了微分和积分。十九世纪上半叶,高斯(Gauss)和他的学生黎曼(Riemann)完善了基于平行线相交的曲面几何。里奇(Ricci)在此基础上增加了一个明确的曲率概念。
爱因斯坦将这两个独立的、看似“毫不相关”的研究工作结合起来,一个是实际的物理现象,另一个是纯粹的抽象数学。爱因斯坦在努力扩展其狭义相对论时,学会了如何使用黎曼几何和里奇曲率,构建了一个自洽的广义相对论。⊃1;⊃2;
科学进步展示了“模仿”和“创新”两者之间的互动,这种互动在现代经济增长理论中也有所体现(例如,见班哈波柏(Benhabib et al.,2014)和班哈波柏(Benhabib et al.,2020))。在“模仿”阶段,电磁学、相对论和数学领域的先驱者主要是复制前辈和老师的技术;在“创新”阶段则是在某种程度上超越前辈和老师,因为他们比老师学得更多、理解得更深。
7
结论性评述
通过对物理学、生物学、统计学和经济学中的观点的概述,我希望证明一个主张:即平克Pinker(2003)认为我们在认知上有先天局限的学科,正是被用来创造人工智能和机器学习的学科。这正是在学期间和离开学校以后继续学习这些学科的又一个理由。在我看来,它们自身的美则构成了另一个理由。
脚注1:哈耶克(Hayek, 2011, 附录A)讨论了自然和人工的其他定义。
脚注2:时至今日,观察科学家如何应用机器学习和人工智能,你会看到这些聪明人搜集了大量数据、然后以之拟合函数。De Silva et al. (2020)与Brunton and Kutz (2022)是其中两个漂亮的范例。
脚注3:为了找到埋藏在第谷·布拉赫 (Tycho Brahe) (1546-1601) 的已知行星位置时间戳测量表中的三个行星运动定律,约翰内斯·开普勒(Johannes Kepler) (1571-1630) 使用了类似于伽利略的方法。李(Li)等人追随开普勒的脚步,使用机器学习技术从布拉赫(Tycho Brahe)的数据中提取开普勒定律之一。如需了解开普勒和伽利略的科学方法的精彩描述参见温伯格(Weinberg ,2015)。
脚注4: 当时一些顶尖科学家并没有马上接受达尔文的理论。例如,开尔文(Kelvin)勋爵声称当时盛行的地球估算年龄还远远无法论证达尔文的理论是否成立。
脚注5: 因此,现代计算和人工智能的伟大发明者约翰·冯·诺依曼(John von Neumann)对这四个领域进行了研究并做出了重大贡献并非巧合。参见 Bhattacharya (2022) 了解更多有关冯·诺依曼的工作和生活的叙述。
脚注6: 这个网站借助 Python 代码探索了这两种可能的有关概率意义,参见https://python.quantecon.org/prob_meaning.html。
脚注7:当经济学家谈到“理性预期”时,他们指的是假设“对环境的普遍正确理解”。 “理性预期”一词修饰的是“模型”,而不是“人”。
脚注8:参见克雷普斯(Kreps,1997)进一步了解这两类模型的共同特征和缺点,以及一些精彩的观点和关于新方向的猜想,在我看来,这些新方向似乎预示了人工智能随后会进入经济学。
脚注9:霍特灵、弗里德曼和萨维奇的工作最后引出了“贝叶斯优化”这一机器学习技术。可参见斯诺克(Snoek et al. ,2012)。
脚注10: 请参考 science/john-henry-holland-computerized-evolution-dies-at-86.html.
脚注11:爱因斯坦的办公室墙上挂有麦克斯韦的照片。
脚注12:对这些事件的记录详见法梅洛(Farmelo,2019)著作的第三章。
(上下滑动,查看更多)
原标题:《独家首发!诺奖得主萨金特教授论“人工智能的来源”》