深度学习经典论文汇总

时间:2022-12-20 17:53:45

CV-CNN

  • AlexNet(2012):深度学习热潮的奠基作
  • VGG(2014):使用 3x3 卷积构造更深的网络
  • GoogleNet(2014):使用并行架构构造更深的网络
  • ResNet(2015):构建深层网络的残差连接
  • MobileNet(2017):适合终端设备的小CNN
  • EfficientNet(2019):通过架构搜索得到的CNN
  • Non-deep networks(2021):让不深的网络也能在ImageNet刷到SOTA

CV-Object Detection

CV-Comparative Learning

  • InstDisc(2018):提出实例判别和memory bank做对比学习
  • CPC(2018):对比预测编码,图像语音文本强化学习全都能做
  • InvaSpread(2019):一个编码器的端到端对比学习
  • CMC(2019):多视角下的对比学习
  • MoCov1(2020):无监督训练
  • SimCLRv1(2020):简单的对比学习 (数据增强 + MLP head + 大batch训练久)
  • MoCov2(2020):MoCov1 + improvements from SimCLRv1
  • SimCLRv2(2020):大的自监督预训练模型很适合做半监督学习
  • BYOL(2020):不需要负样本的对比学习
  • SWaV(2020):聚类对比学习
  • SimSiam(2020):化繁为简的孪生表征学习
  • MoCov3(2021):如何更稳定的自监督训练ViT
  • DINO(2021):transformer加自监督在视觉

CV-Transformer

  • ViT(2020):Transformer杀入CV界
  • Swin Transformer(2021):多层次的Vision Transformer
  • MLP-Mixer(2021):使用MLP替换self-attention
  • MAE(2021):BERT的CV版

CV-Video Understanding

  • DeepVideo(2014):提出sports1M数据集,用深度学习做视频理解
  • Two-stream(2014):引入光流做时序建模,神经网络首次超越手工特征
  • C3D(2014):比较深的3D-CNN做视频理解
  • Beyond-short-snippets(2015):尝试使用LSTM
  • Convolutional fusion(2016):early fusion来加强时空间建模
  • TSN(2017):视频分段建模,bag of tricks in video
  • I3D(2017):提出Kinetics数据集,膨胀2D网络到3D,开启3D-CNN时代
  • R2+1D(2017):拆分3D卷积核,使3D网络容易优化
  • Non-local(2017):引入自注意力做视觉问题
  • SlowFast(2018):快慢两支提升效率
  • TimeSformer(2021):视频中第一个引入transformer,开启video transformer时代

NLP-Transform

  • Transformer:继MLP、CNN、RNN后的第四大类构架
  • GPT:使用Transformer解码器做预训练
  • BERT:Transformer一统NLP的开始
  • GPT-2:更大的 GPT 模型,朝着zero-shot learning迈了一大步
  • GPT-3:100倍更大的 GPT-2,few-shot learning效果显著

GAN

多模态

  • CLIP(2021):图片和文本之间的对比学习
  • ViLT(2021):第一个摆脱了目标检测的视觉文本模型
  • ViLD(2021):CLIP蒸馏帮助开集目标检测
  • GLIP(2021):联合目标检测和文本定位
  • CLIP4Clip(2021):拿CLIP直接做视频文本retrieval
  • ActionCLIP(2021):用多模态对比学习有监督的做视频动作分类
  • PointCLIP(2021):3D变2D,巧妙利用CLIP做点云
  • LSeg(2022):有监督的开集分割
  • GroupViT(2022):只用图像文本对也能无监督做分割
  • CLIPasso(2022):CLIP跨界生成简笔画
  • DepthCLIP(2022):用文本跨界估计深度

Reference:GitHub - mli/paper-reading: 深度学习经典、新论文逐段精读