上交大全华班复现o1旅程式学习下的深思考

时间:2024-10-12 08:59:05

因篇幅限制不重复原研究内容,建议访问原技术报告链接精读,这里主要向大伙表示我对上交大本此研究所涉三方面的价值认同及更进一步的延展思考。

ad69e285bf6245698df074604bbd9559.jpg

 

价值认同:

① 深刻洞察:系统性研究并阐释旅程式学习;

② 行业促进:倡导了一种全新的AI研究范式;

③ 核桃计划:建立更长远AGI探索研究机制;

d40b08bf9c1545798546ef960770697c.jpg

 

延展思考:

Ⅰ. 关于o1的旅程学习与以往system1捷径学习的最根本不同在于优化目标的差异,旅程学习优化的是整个推理过程状态而非仅结果,即多步骤的隐式到显式空间状态映射下的细粒度联合概率分布建模,或可理解为大分辨率下的流形展开 - 熟悉我之前观点的伙伴了解这里的隐式与显式分别对应于模型内NN参数化表征与真实世界表征,流形即泛化归一轨迹,感兴趣的小伙伴也可参考我之前的几篇相关主题笔记或文章。

 

Ⅱ. 探索与奖励下的旅程式学习即是一种形式化泛化的组合,在这一形式化框架下蕴含着诸如数学定理证明、代码编程、物理规律探索、生化机制探索甚至关联着在数理化生等多基础科学跨学科思想间、宏观与微观视角下多表型间等可泛化迁移的领域内及跨领域泛化组合。

 

Ⅲ. 捷径学习与旅程学习在结合模型内部隐式神经网络信号激活的多跳与外部显式模型间的长链推理多跳两者的统一视角下,一种直观且自然的类比感觉更像统计物理学与社会经济或社会经济学两种不同的自然动态系统演化现象,而这两种现象又非全完割裂,其中又或隐含和维持着某种平衡与联系

 

Ⅵ. 而在这两种不同的认知范式下,关于其中的“泛化”、“探索”、“奖励”等关键要素在其中蕴含的意义和体现,我的观点是:对于复杂的长链推理模式的联合分布建模也许可泛化“势能”(用于泛化建模或压缩的可观测采集数据受限)存在一定局限性,这可能源于自然界分布本身亦或人类认知的局限,或许这也为旅程式学习即探索本身留出空间以大展拳脚,即当下o1衍生出的training+influence new scaling law。

而其中的“前向式探索”与“反向式奖励”可能是建立当前可泛化空间中泛化间联系并实现泛化空间延展的一种灵活且高效的动态方法,毕竟在我们这个世界中,一些泛化是很难掌握和学习的,需要一些“灵感”或“巧合”。

然不同于AlphaGo那样捷径式强化学习策略,不管模型内的隐式涌现还是模型外的显式信息交互,对于某复杂探索性任务有时错误的探索与反馈也是形成高阶泛化能力的一种必要过程和增益,亦为可解释性带来可能,当然,考虑到复杂性,对于探索的剪枝策略平衡需适当考虑进去,其中的平衡亦是关键。

f949babdcbab413ca33836d5cd7d19de.png

5224d1a06d11436a9c716a7968c08fb5.png 

 43414bc2f0664dc895f403458acba955.png

bc8cc63c8e8146e68a1d951738b7095b.png 

7665935ad88541abb7a4da2955b2a693.png