本周整理了6篇在人工智能和机器学习领域的相关文章:
- LightRNN:深度学习之以小见大
- 首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型?
- 华为诺亚方舟实验室主任李航:自然语言处理的未来趋势
- 赛尔原创 | 基于协同过滤的中文零指代消解方法
- 观点 | 一场必将到来的革命,人工智能将左右下一代终端的成败
- 特征选择,经典三刀
以下为一些总结和看法,如有建议或意见欢迎指点~
LightRNN:深度学习之以小见大
秦涛 微软研究院AI头条
这篇文章针对现有 RNN
随着数据、词表规模的增大所带来的效率问题,提出了一种 LightRNN
的模型。
现有模型对于每个词会根据词表有一个向量表示,从最初的稀疏度非常高的 one-hot
表示,到 word embedding
表示。但随着数据量的增加,对 word embedding
的搜索效率也会逐渐下降。 LightRNN
将一维向量表示转化为二维,则可以很好的将规模为 N 的 word embedding
降低到 N/2,称之为 共享嵌入。该模型不仅很好的解决了数据表示存储和搜索效率问题,而且有更好的精度,因为 LightRNN
把很多有语义关联的词放在同一行。运行时, LightRNN
会先根据前一个词预测当前词的行向量,然后在基于前一个词和预测出的行向量对列向量进行预测。
首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型?
胡祥杰 新智元
以往看来,循环神经网络 对于序列任务就好比 卷积神经网络 对于图像任务,分别模拟了人类对于序列的时序性阅读和对于图像整体的视觉把握。
在 Facebook 提出门卷积神经网络之前, LSTM
通过在循环神经网络中加入 门机制(gating mechanism),通过门来选择性保留和输出信息,解决了信息传递过程中消失的问题,使得信息能在序列任务中得到更长久的传递。而新的门卷积神经网络通过全局共享权重连接,新的门机制能够释放梯度传播,信息并不会存在梯度消失的问题。此外在效率方面,由于卷积神经网络具有更好的并行计算优势,所以该模型相比多层多神经元的 LSTM
具有更高的效率。
华为诺亚方舟实验室主任李航:自然语言处理的未来趋势
亚萌 AI科技评论
这篇文章是华为诺亚方舟实验室主任李航关于深度学习和自然语言处理的未来趋势以及华为最近在自然语言处理方面的一些研究。
李航从以下几个领域对华为近年的研究的简单介绍:
* 自动问答
使用了一种卷积神经网络 Deep Match Model CNN
通过在问答库中对问题和答案进行 匹配 和 排序 来进行自动问答。
* 图片检索(与自然语言描述)
分别采用 CNN
对图片和事先准备好的自然语言描述文本进行特征提取,然后用二者的特征做匹配。
* 机器翻译
采用了 Sequence to Sequence
,并加入了 attention
机制,此外还在其中加入了一个 覆盖向量机制(Coverage Vetor),用来记忆到目前为止翻译了多少内容,并据此动态地去调整Attention机制。
* 自然语言对话
基于生成模型的单轮对话系统,效果比较一般。
此外,李航认为当前完全用深度学习技术解决自然语言处理任务差不多已经结束,接下来将把神经处理和符号处理相结合。所谓和符号处理相结合,就是利用神经网络将自然语言表示向量化,然后通过复杂的逻辑表达式在数据库中进行查询。
赛尔原创 | 基于协同过滤的中文零指代消解方法
尹庆宇 哈工大SCIR
这篇文章主要介绍了一种基于协同过滤的中文零指代消解方法。
所谓 零指代 指的是读者可以通过文章上下文对句子所缺省的部分能够作出正确推断的指代现象。如: 小明吃了一个苹果,(苹果)很甜。
传统的中文零指代大多采用了单候选的先行语选择策略,即每次都会从其候选先行语中选择一个组成词对进行判断,但这种方法只能判断候选语是否适合消解,而不能找出最适合的候选语,常常是根据局部最优进行选择的,不是很可靠。基于协同过滤的方法首先利用词向量对候选语之间的关系进行建模,然后利用推荐算法从全局最优考虑选出最合适的先行语。
观点 | 一场必将到来的革命,人工智能将左右下一代终端的成败
让创新获得认可 将门创投
这篇文章主要讲述了关于人工智能对智能手机的影响。
回想当年塞班(Symbian)对智能手机操作系统市场的席卷之势,到逐渐被 Android 和 IOS 瓜分到谢幕,再到如今人工智能趋势下的智能手机操作系统。
有的人说 Google 开放机器学习平台 tensorflow
就是为了复刻当年开放 Android
为它带来的收益。据甲骨文公司状告中描述, Android
系统为 Google 带来了310亿美元的收入,净利润则达到了220亿美元。虽然现在看似tensorflow
不会像Android
通过广告等其他途径为 Google 带来收益,但各大公司相继开放自己的机器学习平台,如微软的CNTK
,腾讯的Angle
,亚马逊对MXNet
的选择,Facebook 对Torch
的支持等等,只有自己的机器学习框架赢得更多开发者和用户的支持,才能获得更大的市场收益。
特征选择,经典三刀
史春奇 算法与数学之美
这篇文章主要介绍了特征选择在机器学习中的意义和一些常用技巧。
特征选择的工作主要包含特征的选择和排序,特征过少会导致类别之间无法区分,特征过多会导致类别内部样本之间过于离散。对于特征选择工作,可以将其视作从特征集合中 搜索 特征子集的过程,可以尝试常用的一些搜索算法,如穷举法、贪心法、模拟退火、基因算法等。这些方法适用于搜索空间不大的情况下,但随着特征集合规模的扩大,如何 搜索/选择 出最优的特征子集,需要一些前人所总结的一些人生经验:
* 飞刀(Filter)
Filter基于贪心的思想,根据不同的指标对特征进行打分,然后选出得分最高的特征组合/子集。该方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。
对于 单一特征选择,可以根据每个特征属性和目标属性之间的计算值来进行排序选择,如:
1. Welch’s t-Test:计算两个属性的分布的均值方差距离
2. Fish-Score:计算两个分布的距离,均值之差和方差之和的距离
3. Chi-Squared test:卡方检验,计算类别离散值之间的相关性
4. Information Gain:计算两个划分的一致性
而对于 多特征选择,则根据多个特征属性和目标属性之间的计算值来进行排序,如:
1. Relief-F(Relevent Features):该方法设计了一个向量来度量特征的重要性,其每个分量对应于一个初始特征,而特征子集的重要性则是由子集中每个特征对应的相关统计量分量之和来决定的。所以,可以通过设定一个阈值,比阈值大的统计分量作为特征即可。
2. Correlation Feature Selection (CFS):根据属性之间的相关性(Correlation)进行选择。
* 弯刀(Wrapper)
与 filter 不同,wrapper 直接把学习器的性能作为特征子集的评价标准,即要为给定学习器“量身定做”特征子集。
除了文中提到的:
1. Forward Selection: 挑出一些属性, 然后慢慢增大挑出的集合。
2. Backward Elimination: 删除一些属性,然后慢慢减小保留的集合。
还有在 拉斯维加斯方法 框架下使用随机策略来进行子集搜索的LVW(Las Vegas Wrapper),该方法每次选出的特征子集评价都需要训练学习器,计算开销较大。
* 电刀(Embedded)
Embedded 与 filter,wrapper 不同之处在于它的特征选择过程与学习器训练过程是融为一体的,两者在 同一个优化过程 中完成。根据对学习器损失函数引入正则化项,实现对特征的自动选择。常用的损失函数如下:
1. Binary(0-1) loss
2. 平方误差损失
3. Square loss
4. Logistic loss
5. Exponential loss