深度学习经典论文汇总

时间：2022-12-20 17:53:45

CV-CNN

AlexNet（2012）：深度学习热潮的奠基作
VGG（2014）：使用 3x3 卷积构造更深的网络
GoogleNet（2014）：使用并行架构构造更深的网络
ResNet（2015）：构建深层网络的残差连接
MobileNet（2017）：适合终端设备的小CNN
EfficientNet（2019）：通过架构搜索得到的CNN
Non-deep networks（2021）：让不深的网络也能在ImageNet刷到SOTA

CV-Object Detection

R-CNN（2014）：Two-stage
Fast R-CNN（2015）
Faster R-CNN（2015）
SSD（2016）：Single stage
YOLO（2016）
Mask R-CNN（2017）
YOLOv2（2017）
YOLOv3（2018）
CenterNet（2019）：Anchor free
DETR（2020）：Transformer

CV-Comparative Learning

InstDisc（2018）：提出实例判别和memory bank做对比学习
CPC（2018）：对比预测编码，图像语音文本强化学习全都能做
InvaSpread（2019）：一个编码器的端到端对比学习
CMC（2019）：多视角下的对比学习
MoCov1（2020）：无监督训练
SimCLRv1（2020）：简单的对比学习 (数据增强 + MLP head + 大batch训练久)
MoCov2（2020）：MoCov1 + improvements from SimCLRv1
SimCLRv2（2020）：大的自监督预训练模型很适合做半监督学习
BYOL（2020）：不需要负样本的对比学习
SWaV（2020）：聚类对比学习
SimSiam（2020）：化繁为简的孪生表征学习
MoCov3（2021）：如何更稳定的自监督训练ViT
DINO（2021）：transformer加自监督在视觉

CV-Transformer

ViT（2020）：Transformer杀入CV界
Swin Transformer（2021）：多层次的Vision Transformer
MLP-Mixer（2021）：使用MLP替换self-attention
MAE（2021）：BERT的CV版

CV-Video Understanding

DeepVideo（2014）：提出sports1M数据集，用深度学习做视频理解
Two-stream（2014）：引入光流做时序建模，神经网络首次超越手工特征
C3D（2014）：比较深的3D-CNN做视频理解
Beyond-short-snippets（2015）：尝试使用LSTM
Convolutional fusion（2016）：early fusion来加强时空间建模
TSN（2017）：视频分段建模，bag of tricks in video
I3D（2017）：提出Kinetics数据集，膨胀2D网络到3D，开启3D-CNN时代
R2+1D（2017）：拆分3D卷积核，使3D网络容易优化
Non-local（2017）：引入自注意力做视觉问题
SlowFast（2018）：快慢两支提升效率
TimeSformer（2021）：视频中第一个引入transformer，开启video transformer时代

NLP-Transform

Transformer：继MLP、CNN、RNN后的第四大类构架
GPT：使用Transformer解码器做预训练
BERT：Transformer一统NLP的开始
GPT-2：更大的 GPT 模型，朝着zero-shot learning迈了一大步
GPT-3：100倍更大的 GPT-2，few-shot learning效果显著

GAN

GAN（2014）：生成模型的开创工作
DCGAN（2015）：使用CNN的GAN
pix2pix（2016）
SRGAN（2016）：图片超分辨率
WGAN（2017）：训练更加容易
CycleGAN（2017）
StyleGAN（2018）
StyleGAN2（2019）
DDPM（2020）：Diffusion Models
Improved DDPM（2021）：改进的 DDPM
Guided Diffusion Models（2021）：号称超越 GAN
StyleGAN3（2021）
DALL.E 2（2022）：CLIP + Diffusion models，文本生成图像新高度

多模态

CLIP（2021）：图片和文本之间的对比学习
ViLT（2021）：第一个摆脱了目标检测的视觉文本模型
ViLD（2021）：CLIP蒸馏帮助开集目标检测
GLIP（2021）：联合目标检测和文本定位
CLIP4Clip（2021）：拿CLIP直接做视频文本retrieval
ActionCLIP（2021）：用多模态对比学习有监督的做视频动作分类
PointCLIP（2021）：3D变2D，巧妙利用CLIP做点云
LSeg（2022）：有监督的开集分割
GroupViT（2022）：只用图像文本对也能无监督做分割
CLIPasso（2022）：CLIP跨界生成简笔画
DepthCLIP（2022）：用文本跨界估计深度

Reference：GitHub - mli/paper-reading: 深度学习经典、新论文逐段精读

标签：Deep Learning 深度学习人工智能神经网络

相关文章

