什么是所有预测类问题所共同包含的特点?
模式识别。
所谓模式, 是在随机和无序的现象中蕴含的规律性(用另一个词说就是信息), 可是我们信以为真的规律有时候却会把我们骗的团团转。比如你在书里看到受一些超市里发现买啤酒的顾客通常有较高的概率买尿布, 你就在你在的小超市里给给买啤酒的人推荐尿布, 结果最后往往是南辕北辙。
图: 模式在自然和社会中无处不在
所以我们不仅需要知道模式的存在, 更要理解它们为什么会存在, 以及了解挖掘它们的方法 。
这里就涉及两个基本的方法, 一个叫复杂科学(复杂系统), 一个叫机器学习。 复杂科学试图告诉我们模式从哪里来, 机器学习试图告诉我如果突破人类的局限, 去寻找这些模式。 因此我们开发了无数有趣有用的工具。
而在预测类问题中,我们的目的是从现象中识别模式,预测时间序列上的现象。
时间序列指某个物理量对时间的函数。这是一个高度抽象的东西, 但是生活中无数特别重要的东西都可以用它来表述, 比如股市啊, 你一天的血糖变化啊, 你的大脑兴奋性啊,甚至你的语言, 你的思维, 历史王朝的兴衰,都可以把它看作一个离散的时间序列。 无论你是想要预测一个股市的涨落, 还是要从你一天的血糖变化里总结健康状况, 还是要让计算机识别一段语音, 你都面临的一个核心问题, 就是时间序列的理解。 而这点,恰恰是机器学习和复杂系统共同合作的典范。
图: 时间序列
时间序列本身无非是一堆数, 你真正要掌握的是时间序列的类型判别,然后是预测它 。当你拿到一个时间序列, 你可以像一个侦探一样从以下几个角度去认识和挖掘它:
1 随机vs确定:
一个时间序列,往往是外界给与的另一个时间导致的一个东西, 而这样一个东西, 可以随外界的变化而确定, 但也可以由于更复杂的原因是不确定的。 因此, 你要有一个概率空间的概念, 首先思考这个时间序列是否是可以重复的。
2 没有记忆vs历史依赖
时间序列这一刻的状态如果只和上一刻相关, 则可以说它是没有复杂记忆的(马尔科夫过程),反之, 时间序列此刻的状态如果不仅和上一刻相关, 还和上刻,上上刻相关, 那就不具有马氏性,而是复杂历史依赖。
3 线性vs非线性
如果影响时间序列变化的因素之间相互独立, 则它们总的效果可以分解为单个因素的影响的叠加,我们称之为线性,对于线性系统我们有一*成工具解决。 反之如果影响它的因子不能被单独拆分, 则是非线性的。一旦具有非线性, 则问题变得极为复杂,各种类型的相变, 混沌应运而生。
4 问题有多少维? 升维还是降维?
时间序列往往一个随时间变化的高维向量, 首先你要看看你的序列是多少维度的, 然后你要做一个物理学家最常面临的决策: 是否降维? 有时候降维之后问题变得无比简单(PCA分析), 但有时候恰好相反, 把一个低维度的东西投影到高维度才是最简单的(神经网络)。
5 如果这些都给定了, 如何预测一个时间序列的走势?
好了, 这才是核心, 如果你了解了时间序列的上述特性, 你可以试着使用一系列工具, 比如对于线性的问题, 线性回归这类非常一般的方法有时候都会得到不错的解决。 如果不具备复杂的记忆, 则隐变量马尔科夫过程HMM就可以很好的解决这个问题。 如果恰好所有的都被否定了, 则你要考虑寄出神经网络大法碰碰运气。
6 那么有没有可能一切试过了还是不能预测?
这里复杂科学就会碰上用场, 因为你完全可能发现所有的预测方法都失控, 而真相就是问题本身包含不可预测性。
比如说股市,从刚才的三个指标看, 股市是一个典型的具有巨大随机性, 复杂历史依赖,与非线性的时间序列 ,任何用简单因素预测股市的方法都是扯,即使一些最复杂的工具比如神经网络也很难取得特别好的突破。
这是为什么?
因为股市这个系统其实处于物理里所说的某种临界态上, 首先动力学高度混沌, 收到微小因素影响就会与原有预测分道扬镳,第二它具有反身性, 即你的预测会反馈到未来里,使得最终结果更加扑朔迷离。 第三股票经常受到突发事件影响, 而如911这样的大新闻从根本上说是不可预测的黑天鹅事件。
那么是不是那些研究股市的人都是瞎的? 也不是,股市这个东西呢,你要是想赚的多, 只需要把预测的正确率提高1个百分点, 而不是要准确预测, 1个百分点对于大的机构来说, 就可能是无穷大的收入增长。 而复杂的模型,还是有可能把正确率提升1个百分点以上的 ,否则quant干什么吃呢?
7 甚至有些初看觉得特别有规律的东西, 也不是完全可预测的
比如心跳这个看似简单的问题, 首先心跳是个时间序列,然后心跳不是周期性的吗? 那不是可以完全预测? 事实上, 如果你细致的看, 心跳还是有长短不同的间隔。而对于一些心脏病人, 它们的心跳也会显示类似混沌系统的十分复杂的模式。 而对于心跳出现偶然不齐的预测, 则可以成为预防一个人心脏病突发死亡的基础, 虽然这并非总是很简单。
8 自然语言处理与时间序列
语言, 你不要以为和数学没有关系。 当你把它转化为数字, 它也无非是一个随时间变化的高维向量。这种时间序列也是可以用精美的概率模式描述的, 而如果寄出神经网络大法,我们甚至可以发现它也是可以预测的。 这个神奇的工具叫递归神经网络(RNN), 它真的是会试着回答你的问题的哦。 如果有一天人类真能做出突破图灵测试的AI-Machina, 估计就是以她为原件哦。
9. 随机之美
概率作为一个数学工具的存在,也描述了人在随机性面前的无力,随机性在同时赋予世界创造与毁灭世界的力量的时候所带来的悲剧之美。 在我眼里,好的科学与梵高的名画,莫扎特的音乐是异曲同工的。
人类发明了人工智能,人工智能又反过来促使我们自身的提高。而在进行模式识别预测未来时间点的变化的过程中,也在一步一步重构自身的世界。
作者:许铁-巡洋舰科技